- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术研究39大数据技术研究39
大 数 据 技 术 研 究
网络部·网管支撑处
2012年12月
目 录
- 2 -
一、大数据的背景与定义
二、大数据的关键技术
三、网管领域应用展望
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段
- 3 -
1946
1951
1956
1961
1970
1974
1979
1991
2001
2003
2008
2011
第一台计算机ENIAC面世
磁带+卡片
人工管理
磁盘被发明,进入文件管理时代
SQL
E-R
GE公司发明第一个网络模型数据库,但仅限于GE自己的主机
1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导
IBM E.F.Dodd提出关系模型
SQL语言被发明
关系型
数据库
ORACLE发布第一个商用SQL关系数据库,后续快速发展
数据仓库
数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期
2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求
1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分
Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算
GFS
谷歌发表论文介绍分布式计算
大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB
2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出大数据(BigData)概念
2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进
2011 年10 月,Gartner 认为2012 年十大战略技术将包括大数据
2011 年11 月底,IDC 将大数据放入2012 年信息通信产业十大预测之一
- 4 -
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
Google网站 Big data关键词搜索及新闻引用量
大数据的定义
IDC对大数据的定义
大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构
解读大数据定义
业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)
技术要求:满足3V (快速-Velocity、大体量-Volumes、多类别-Variety)的特征
技术方案:未提及,可能是新兴技术与传统技术的混搭
- 5 -
IT行业大数据相关动向和举措
- 6 -
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角
商业解决方案
HP 2011年推出vertica数据库
Oracle 2011年推出noSQL数据库
EMC 2010年收购Greenplum
Teradata 2011年收购Asterdata,并推出SQL-Mapreduce
IBM 2010年收购Netezza
SAP 2011年收购Sybase
开源解决方案
开源组织Apache在2008年将Hadoop列为顶级项目
2010年 HBase自Hadoop上诞生
开源组织GNU 2010年发布Mongodb
Vmware 2010年提供开源产品Redis
Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则
互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰
Google 研发Bigtable并自行使用
Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用
Twitter开发Storm自用并提供开源
传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主
目前还是以数据库、数据仓库技术为主,对大数据技术仍处
文档评论(0)