- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HADOOP体系大数据存储与处理的新范式
英特尔 ? 技术期刊 | 2012 年,第 4 期,第 16 卷
1 | Hadoop 体系:大数据存储与处理的新范式
HADOOP 体系:大数据存储与处理的新范式
作者
Jinquan Dai
英特尔软件与服务事业部
Jie Huang
英特尔软件与服务事业部
Shengsheng Huang
英特尔软件与服务事业部
Yan Liu
英特尔软件与服务事业部
Yuanhao Sun
英特尔软件与服务事业部
“大数据工业革命”已近在眼前,这将成为创新、竞争和生产力的下一个前
沿阵地。[1] 大数据前景广阔,但同样也充满挑战——它延伸到传统结构化
(或关系型)数据之外,包括所有类型的非结构化数据;它不仅规模庞
大,增长速度更是超过了摩尔定律。在本文中,我们首先介绍了大数据
存储和处理所必不可少的一种新范式(具体来说就是 Hadoop 体系)。
此后,我们介绍了如何通过英特尔提供的经过验证的方法和工具(例如
HiBench 和 HiTune)来优化 Hadoop 部署。最后,我们利用一个智能交通
系统 (ITS) 应用的案例分析,展示了真实世界大数据应用程序面临的挑战和
可行的解决方案。
简介
“大数据工业革命”已近在眼前,世界上充斥由多种多样的数据源(从 Web
日志和点击流,到电话记录和医疗记录,再到传感器和监控摄像头)生成
的大量不同形式的数据。这些极速涌现的数据带来了极高的价值。大数据
已经成为互联网、社交与移动的动力中心;更重要的是,随着企事业单位
(电信、政府、金融服务、医疗保健等)尚未准备好处理的积压数据已积
累到数 TB 乃至数 PB 字节,大数据逐渐变得无所不在。很快,随着物联
网时代的到来,所有企业都要应对来自无处不在的设备与传感器的更多数
据。这些大数据趋势将成为创新、竞争和生产力的下一个前沿阵地。
大数据前景广阔,但同样也充满挑战。它延伸到传统结构化(或关系型)
数据之外,包括所有类型的非结构化数据(文本、图像、视频等);它不
仅规模庞大,增长速度更是超过了摩尔定律(每两年翻一番以上)。[2] 在
本文中,我们首先介绍了大数据存储和处理所必不可少的一种新范式(具
体来说就是 Hadoop 体系)。随后,我们介绍了如何通过英特尔提供的经
过验证的方法和工具来优化 Hadoop 部署。最后,我们利用一个案例分
析,展示了真实世界大数据应用程序面临的挑战和可行的解决方案。
大数据分析新范式
大 数 据 推 动 着 新 一 轮 的 工 业 革 命 。 领 先 的 W e b 企 业 ( 例 如 谷 歌 、
Facebook、亚马逊和淘宝)已经开始以全新的方式看待数据,
将数据视为改进其业务的新途径。未来,对于企业和政府机构来说,从尚
未开拓的海量数据中获取价值将变得更加重要。
然而,大数据与传统数据截然不同。在这一节中,我们将介绍大数据带来
Hadoop 体系:大数据存储与处理的新范式 | 2
英特尔 ? 技术期刊 | 2012 年,第 4 期,第 16 卷
的全新挑战,以及旨在应对这些挑战的大数据处理新范式。
大数据与传统数据截然不同
某些人将大数据定义为“规模超过典型数据库软件工具捕获、存储、管理和
分析能力的数据集”[1]。然而,大数据不仅规模庞大,而且具有多样化的特
点。
? 非结构化数据: 不同于企业数据库或数据仓库中的传统结构化(或关
系)数据,大数据主要都是非结构化数据——源自许多不同的来源、采
用多种不同的形式(例如文本、图片、音频、视频和传感器读数),通
常具有彼此冲突的语法和语义。
? 规模庞大、增长迅猛: 非结构化数据与结构化数据相比增长速度快 10
到 50 倍,很快就会占据所有数据中 90% 的比例。[2] 因此,大数据不
但规模庞大(比传统数据仓库大 10 至 100 倍[3]),而且呈指数级增长
(每年增加大约 60%),增长速度之快甚至超过了摩尔定律。[2]
? 外扩框架: 庞大的规模、指数级的增长和多变的特征使得大数据迫切需
要一种可伸缩性更强、更灵活的数据管理和分析框架。因此,许多企业
采用了新兴大数据框架(例如 Hadoop/MapReduce 和 NoSQL)作为外扩
(而非上扩)、无共享的架构,并在独立服务器组成的集群上运行大规
模并行软件。
? 实时、预测分析: 从大数据中可以获取可观的价值(例如,美国医疗保
健业可获得每年 3000 亿美元 [USD] 的潜在价值[1])。为了实现这样的
价值,需要采用一种新型的预测分析(包括复杂的机器学习、统计建
模、图形分析等),在海量数据中、在持续的数据流中(接近)实时地
识别未来趋势和模式。
Hadoop 体系:全新大数据处理范式
大数据庞大的规模、指数级的增长和多变的特征使其迫切需要一种新型的
数
文档评论(0)