数据发展简史.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DT 数据发展简史 赢在 BUSINESS REPORT 刘宏仓 2017.01.13 01 数据概述 在人类发展历程中,数据表现方式分为两类: 模拟数据(声音,文件,图像,视频) 数字数据(文字,符号) 自从计算机发明以来,数据在计算机中都是以二进制0和1的形式进行保存。 鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。 03 数据库系统 SQL NoSQL 键值存储 列存储 文档存储 图像存储 FS 04 第一阶段:关系型数据库 05 第一阶段:关系型数据库 数据库工程师 负责企业数据库模型设计(ER,powerdesigner),表,索引,视图,函数 触发器,存储过程,事件,权限简单维护管理 数据库开发工程师 复杂的统计分析,存储过程开发 DBA SQL优化,索引优化,参数优化 数据库系统高级维护,灾备 英文名称为Data Warehouse,简写为DW。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 数据仓库特性 面向主题 数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关 集成的 必须保证数据仓库内的信息是关于整个企业的一致的全局信息 相对稳定 某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少 反映历史变化 数据仓库中的数据通常包含历史信息,反映过去某一时点到目前的各个阶段的信息 06 第二阶段:关系型数据仓库 07 第二阶段:关系型数据仓库 08 第二阶段:关系型数据仓库 ETL BI 09 第二阶段:关系型数据仓库 数据仓库工程师 负责企业数据仓库的规划,建设(EDW),模型设计,数据分层 EDW,DW,ODS,DM,DIM ETL工程师 负责数据抽取,转化,清洗,加工,合并,拆分等, 把数据从SRC迁移到DW中 BI工程师 通过工具或者算法,对企业提供BI应用和报表 10 第三阶段:非关系型数据库 在互联网,移动互联网发展浪潮中,传统关系型数据库已经无法实现和满足某些业务场景的情况下,NoSQL数据库如雨后春笋顺势而发,它是 为弥补关系型数据库的不足应运而生。 NoSQL数据库并没有一个统一的架构和产品规范,不同NoSQL数据库之间的差异非常大,各个NoSQL数据库各有所长,成功的NoSQL数据库必然特别适用于某些场合或者某些应用。 11 第三阶段:非关系型数据库 这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。如:TokyoCabinet/Tyrant, Redis, Voldemort, Oracle BDB,Memcached。 键值存储数据库 12 第三阶段:非关系型数据库 这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:BigTable,Cassandra, HBase, Riak。 列存储数据库 133 第三阶段:非关系型数据库 文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb。 文档存储数据库 14 第三阶段:非关系型数据库 图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph。 图像存储数据库 15 第三阶段:非关系型数据库 文件存储系统 目前包括HDFS,FastDFS,TFS,GFS 16 第三阶段:非关系型数据库 消息队列系统 目前包括Kafka,ActiveMQ,RabbitMQ 数据库工程师 关系数据库,redis,mongodb,消息队列,文件系统都需要懂 17 第四阶段:数据库集群化 高可用 每个数据库采用master-slave模式,保障数据的灾备。Master-slave切换 采用zookeeper框架,采用client端监控模式向sever发送存活

文档评论(0)

187****5045 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档