HADOOP体系大数据存储与处理的新范式.pdfVIP

下载本文档

26
0
约1.94万字
约 18页
2017-04-01 发布于湖北
举报
版权申诉

HADOOP体系大数据存储与处理的新范式.pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HADOOP体系大数据存储与处理的新范式

英特尔 ? 技术期刊 | 2012 年，第 4 期，第 16 卷 1 | Hadoop 体系：大数据存储与处理的新范式 HADOOP 体系：大数据存储与处理的新范式作者 Jinquan Dai 英特尔软件与服务事业部 Jie Huang 英特尔软件与服务事业部 Shengsheng Huang 英特尔软件与服务事业部 Yan Liu 英特尔软件与服务事业部 Yuanhao Sun 英特尔软件与服务事业部 “大数据工业革命”已近在眼前，这将成为创新、竞争和生产力的下一个前沿阵地。[1] 大数据前景广阔，但同样也充满挑战——它延伸到传统结构化（或关系型）数据之外，包括所有类型的非结构化数据；它不仅规模庞大，增长速度更是超过了摩尔定律。在本文中，我们首先介绍了大数据存储和处理所必不可少的一种新范式（具体来说就是 Hadoop 体系）。此后，我们介绍了如何通过英特尔提供的经过验证的方法和工具（例如 HiBench 和 HiTune）来优化 Hadoop 部署。最后，我们利用一个智能交通系统 (ITS) 应用的案例分析，展示了真实世界大数据应用程序面临的挑战和可行的解决方案。简介 “大数据工业革命”已近在眼前，世界上充斥由多种多样的数据源（从 Web 日志和点击流，到电话记录和医疗记录，再到传感器和监控摄像头）生成的大量不同形式的数据。这些极速涌现的数据带来了极高的价值。大数据已经成为互联网、社交与移动的动力中心；更重要的是，随着企事业单位（电信、政府、金融服务、医疗保健等）尚未准备好处理的积压数据已积累到数 TB 乃至数 PB 字节，大数据逐渐变得无所不在。很快，随着物联网时代的到来，所有企业都要应对来自无处不在的设备与传感器的更多数据。这些大数据趋势将成为创新、竞争和生产力的下一个前沿阵地。大数据前景广阔，但同样也充满挑战。它延伸到传统结构化（或关系型）数据之外，包括所有类型的非结构化数据（文本、图像、视频等）；它不仅规模庞大，增长速度更是超过了摩尔定律（每两年翻一番以上）。[2] 在本文中，我们首先介绍了大数据存储和处理所必不可少的一种新范式（具体来说就是 Hadoop 体系）。随后，我们介绍了如何通过英特尔提供的经过验证的方法和工具来优化 Hadoop 部署。最后，我们利用一个案例分析，展示了真实世界大数据应用程序面临的挑战和可行的解决方案。大数据分析新范式大数据推动着新一轮的工业革命。领先的 W e b 企业（例如谷歌、 Facebook、亚马逊和淘宝）已经开始以全新的方式看待数据，将数据视为改进其业务的新途径。未来，对于企业和政府机构来说，从尚未开拓的海量数据中获取价值将变得更加重要。然而，大数据与传统数据截然不同。在这一节中，我们将介绍大数据带来 Hadoop 体系：大数据存储与处理的新范式 | 2 英特尔 ? 技术期刊 | 2012 年，第 4 期，第 16 卷的全新挑战，以及旨在应对这些挑战的大数据处理新范式。大数据与传统数据截然不同某些人将大数据定义为“规模超过典型数据库软件工具捕获、存储、管理和分析能力的数据集”[1]。然而，大数据不仅规模庞大，而且具有多样化的特点。 ? 非结构化数据：不同于企业数据库或数据仓库中的传统结构化（或关系）数据，大数据主要都是非结构化数据——源自许多不同的来源、采用多种不同的形式（例如文本、图片、音频、视频和传感器读数），通常具有彼此冲突的语法和语义。 ? 规模庞大、增长迅猛：非结构化数据与结构化数据相比增长速度快 10 到 50 倍，很快就会占据所有数据中 90% 的比例。[2] 因此，大数据不但规模庞大（比传统数据仓库大 10 至 100 倍[3]），而且呈指数级增长（每年增加大约 60%），增长速度之快甚至超过了摩尔定律。[2] ? 外扩框架：庞大的规模、指数级的增长和多变的特征使得大数据迫切需要一种可伸缩性更强、更灵活的数据管理和分析框架。因此，许多企业采用了新兴大数据框架（例如 Hadoop/MapReduce 和 NoSQL）作为外扩（而非上扩）、无共享的架构，并在独立服务器组成的集群上运行大规模并行软件。 ? 实时、预测分析：从大数据中可以获取可观的价值（例如，美国医疗保健业可获得每年 3000 亿美元 [USD] 的潜在价值[1]）。为了实现这样的价值，需要采用一种新型的预测分析（包括复杂的机器学习、统计建模、图形分析等），在海量数据中、在持续的数据流中（接近）实时地识别未来趋势和模式。 Hadoop 体系：全新大数据处理范式大数据庞大的规模、指数级的增长和多变的特征使其迫切需要一种新型的数