- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2008年末,业界组织计算机社区联盟,发表了 《大数据计算:在商务、科学和 领
域创建革命性突破》。此组织可以说是最早提出大数据概念的机构。提出大数据真正
重要的是新用户和新见解(insight),而非数据本身。
2011年5月9日-12日在 拉斯维加斯举办第11届年度EMC World大会,大数据方面的
重点是如何管理PB级数据量,通过 挖掘这些数据的价值,确保及时向相关人员提
供 。
全球每秒钟发送2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读
5.5 年…
每天会有2.88 万个小时的视频上传到 ,足够一个人昼夜不息的观看3.3 年…
上每天发布5 千万条消息, 10 秒钟浏览一条 ,这些消息足够一个人昼夜
不息的浏览16 年…
每天亚马逊上将产生6.3 百万笔订单…
每个月网民在 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数
据高达1.3EB…
Google 上每天需要处理24PB 的数据…
5
“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据
集中
Volvo集团成立euroFOT network ,在80沃尔沃卡车上安装Sensors和视频 ,用于
汽车的运行数据,每小时1GB数据,每年~70TB ,用于发动机、汽车安全性和用
户体验改进
IDC 的预计,到2020 年全球将总共拥有35ZB 的数据量,相较于2009 年,数据量将增
长50倍
6
传统的数据处理系统面临的问题主要包括以下几个方面:
数据量过于庞大;
大数据多样化格式;
大数据价值密度低;
存储和处理成本高
现有所谓的技术模型已经很难满足大数据处理和 的要求,作为数据的处理流程环
节,计算、存储、网络、数据库等都会成为新的瓶颈,需要新技术来匹配
大数据是当前的热门话题,各个厂家纷纷推出自己的大数据产品,到底什么是大数据
,各个领域的专家根据自己行业的应用给出了不同的看法:
某互联网企业:未来企业会依靠洞悉数据中的 ,更加了解自己和客户。企业
已经从依靠自身做判断向通过数据做判断转变
某云服务提供商:传统的基于集中式或者小规模分布式和并行系统 大数
据的计算需求,弹性的计算能力是大数据定义的重要维度。
某通信商:对于运营商来说,这个“大数据”主要就是指大量的用户产生的行为
数据
百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理
和处理的数据集合”
IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者
从小数据开始,但数据每年增长60%
Gartner :大数据的四个V :Volume、Variety、Velocity、Value
Volume :数据量大,
Variety :种类多
Velocity :速度,及时有效
Value :价值密度低,数据存储要廉价
另外IBM有大数据5V特征定义,增加了一个Veracity (真实性)
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像
和音频/视频 等
半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数
据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结
构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分
Hadoop成为开放的事实标准
SMP (Symmetric Multi-Processing),对称多处理结构的简
文档评论(0)