Hadoop云计算技术手册.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop云计算技术手册

Hadoop 云计算技术手册 作者:zbwd 中国云计算论坛 Email:xjtuzb@ GTCRC@XJTU 序 言 Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和 一个分布式的文件系统等两部分组成。 Hadoop起源于Doug Cutting大牛领导开发的Nutch搜索引擎项目的子项目。现 在是Apache软件基金会管理的开源项目。 本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了 MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提 供一个关于Hadoop的技术简介和研究参考。关于Hadoop的安装指南和编程范例 并不在本文叙述范围内,有需要者请参考其它资料。 因笔者水平实在太有限了,文中如有疏漏错误请不吝指出,万分感谢。 本人资料多数来源于互联网的技术文档,附录列出引文列表,特此致谢原文作者。 最后,发自内心、无与伦比地感谢Google、Apache软件基金会和Doug Cutting 带给我们如此简约、优雅的技术。 OK,让我们开始吧!去寻找那神奇的小飞象。 Hadoop云计算技术介绍 第 2 页 共 17 页 目 录 � 引言——Hadoop从何而来 � 算法思想——Hadoop是怎么思考的 � 基本架构——Hadoop是如何构成的 � 运行流程——Hadoop是如何工作的 � 任务粒度——Hadoop是如何并行的 � 参考文献 Hadoop云计算技术介绍 第 3 页 共 17 页 1. 引言——Hadoop 从何而来 自从Google工程师Jeffrey Dean提出MapReduce编程思想,MapReduce便在 Google的各种Web应用中释放着魔力。然而,也许出于技术保密的目的,Google 公司并没有透露其MapReduce的实现细节。 幸运的是,Doug Cutting开发的Hadoop作为MapReduce开源实现,让 MapReduce这么平易近人地走到了我们面前。2006年1月,Doug Cutting因其 在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项 目上进行开发。现在,Doug Cutting大牛已经加盟Cloudera(一家从事Hadoop 产品商业化及技术支持的公司)。 注:Hadoop 名称的来历——Hadoop 原本是小 Doug Cutting 的大象玩具。 作为Google MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google 的Google File System文件系统、MapReduce并行算法以及BigTable。因此, Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。 当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为 Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现 故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduce Hadoop云计算技术介绍 第 4 页 共 17 页 的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展—— 依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有 处理PB级数据的能力。 虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持 多种编程语言,如C++。 Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如搜索 结果分析等)提供支持的Web扩展(web-scale)服务。 2. 算法思想——Hadoop 是怎么思考的 MapReduce 主要反映了映射和规约两个概念,分别完成映射操作和规约操作。映 射操作按照需求操作独立元素组里面的每个元素,这个操作是独立的,然后新建 一个元素组保存刚生成的中间结果。因为元素组之间是

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档