HADOOP体系大数据存储与处理的新范式.pdfVIP

HADOOP体系大数据存储与处理的新范式.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HADOOP体系大数据存储与处理的新范式

英特尔 ? 技术期刊 | 2012 年,第 4 期,第 16 卷 1 | Hadoop 体系:大数据存储与处理的新范式 HADOOP 体系:大数据存储与处理的新范式 作者 Jinquan Dai 英特尔软件与服务事业部 Jie Huang 英特尔软件与服务事业部 Shengsheng Huang 英特尔软件与服务事业部 Yan Liu 英特尔软件与服务事业部 Yuanhao Sun 英特尔软件与服务事业部 “大数据工业革命”已近在眼前,这将成为创新、竞争和生产力的下一个前 沿阵地。[1] 大数据前景广阔,但同样也充满挑战——它延伸到传统结构化 (或关系型)数据之外,包括所有类型的非结构化数据;它不仅规模庞 大,增长速度更是超过了摩尔定律。在本文中,我们首先介绍了大数据 存储和处理所必不可少的一种新范式(具体来说就是 Hadoop 体系)。 此后,我们介绍了如何通过英特尔提供的经过验证的方法和工具(例如 HiBench 和 HiTune)来优化 Hadoop 部署。最后,我们利用一个智能交通 系统 (ITS) 应用的案例分析,展示了真实世界大数据应用程序面临的挑战和 可行的解决方案。 简介 “大数据工业革命”已近在眼前,世界上充斥由多种多样的数据源(从 Web 日志和点击流,到电话记录和医疗记录,再到传感器和监控摄像头)生成 的大量不同形式的数据。这些极速涌现的数据带来了极高的价值。大数据 已经成为互联网、社交与移动的动力中心;更重要的是,随着企事业单位 (电信、政府、金融服务、医疗保健等)尚未准备好处理的积压数据已积 累到数 TB 乃至数 PB 字节,大数据逐渐变得无所不在。很快,随着物联 网时代的到来,所有企业都要应对来自无处不在的设备与传感器的更多数 据。这些大数据趋势将成为创新、竞争和生产力的下一个前沿阵地。 大数据前景广阔,但同样也充满挑战。它延伸到传统结构化(或关系型) 数据之外,包括所有类型的非结构化数据(文本、图像、视频等);它不 仅规模庞大,增长速度更是超过了摩尔定律(每两年翻一番以上)。[2] 在 本文中,我们首先介绍了大数据存储和处理所必不可少的一种新范式(具 体来说就是 Hadoop 体系)。随后,我们介绍了如何通过英特尔提供的经 过验证的方法和工具来优化 Hadoop 部署。最后,我们利用一个案例分 析,展示了真实世界大数据应用程序面临的挑战和可行的解决方案。 大数据分析新范式 大 数 据 推 动 着 新 一 轮 的 工 业 革 命 。 领 先 的 W e b 企 业 ( 例 如 谷 歌 、 Facebook、亚马逊和淘宝)已经开始以全新的方式看待数据, 将数据视为改进其业务的新途径。未来,对于企业和政府机构来说,从尚 未开拓的海量数据中获取价值将变得更加重要。 然而,大数据与传统数据截然不同。在这一节中,我们将介绍大数据带来 Hadoop 体系:大数据存储与处理的新范式 | 2 英特尔 ? 技术期刊 | 2012 年,第 4 期,第 16 卷 的全新挑战,以及旨在应对这些挑战的大数据处理新范式。 大数据与传统数据截然不同 某些人将大数据定义为“规模超过典型数据库软件工具捕获、存储、管理和 分析能力的数据集”[1]。然而,大数据不仅规模庞大,而且具有多样化的特 点。 ? 非结构化数据: 不同于企业数据库或数据仓库中的传统结构化(或关 系)数据,大数据主要都是非结构化数据——源自许多不同的来源、采 用多种不同的形式(例如文本、图片、音频、视频和传感器读数),通 常具有彼此冲突的语法和语义。 ? 规模庞大、增长迅猛: 非结构化数据与结构化数据相比增长速度快 10 到 50 倍,很快就会占据所有数据中 90% 的比例。[2] 因此,大数据不 但规模庞大(比传统数据仓库大 10 至 100 倍[3]),而且呈指数级增长 (每年增加大约 60%),增长速度之快甚至超过了摩尔定律。[2] ? 外扩框架: 庞大的规模、指数级的增长和多变的特征使得大数据迫切需 要一种可伸缩性更强、更灵活的数据管理和分析框架。因此,许多企业 采用了新兴大数据框架(例如 Hadoop/MapReduce 和 NoSQL)作为外扩 (而非上扩)、无共享的架构,并在独立服务器组成的集群上运行大规 模并行软件。 ? 实时、预测分析: 从大数据中可以获取可观的价值(例如,美国医疗保 健业可获得每年 3000 亿美元 [USD] 的潜在价值[1])。为了实现这样的 价值,需要采用一种新型的预测分析(包括复杂的机器学习、统计建 模、图形分析等),在海量数据中、在持续的数据流中(接近)实时地 识别未来趋势和模式。 Hadoop 体系:全新大数据处理范式 大数据庞大的规模、指数级的增长和多变的特征使其迫切需要一种新型的 数

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档