- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop云计算技术手册
Hadoop 云计算技术手册
作者:zbwd 中国云计算论坛
Email:xjtuzb@
GTCRC@XJTU
序 言
Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和
一个分布式的文件系统等两部分组成。
Hadoop起源于Doug Cutting大牛领导开发的Nutch搜索引擎项目的子项目。现
在是Apache软件基金会管理的开源项目。
本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了
MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提
供一个关于Hadoop的技术简介和研究参考。关于Hadoop的安装指南和编程范例
并不在本文叙述范围内,有需要者请参考其它资料。
因笔者水平实在太有限了,文中如有疏漏错误请不吝指出,万分感谢。
本人资料多数来源于互联网的技术文档,附录列出引文列表,特此致谢原文作者。
最后,发自内心、无与伦比地感谢Google、Apache软件基金会和Doug Cutting
带给我们如此简约、优雅的技术。
OK,让我们开始吧!去寻找那神奇的小飞象。
Hadoop云计算技术介绍 第 2 页 共 17 页
目 录
� 引言——Hadoop从何而来
� 算法思想——Hadoop是怎么思考的
� 基本架构——Hadoop是如何构成的
� 运行流程——Hadoop是如何工作的
� 任务粒度——Hadoop是如何并行的
� 参考文献
Hadoop云计算技术介绍 第 3 页 共 17 页
1. 引言——Hadoop 从何而来
自从Google工程师Jeffrey Dean提出MapReduce编程思想,MapReduce便在
Google的各种Web应用中释放着魔力。然而,也许出于技术保密的目的,Google
公司并没有透露其MapReduce的实现细节。
幸运的是,Doug Cutting开发的Hadoop作为MapReduce开源实现,让
MapReduce这么平易近人地走到了我们面前。2006年1月,Doug Cutting因其
在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项
目上进行开发。现在,Doug Cutting大牛已经加盟Cloudera(一家从事Hadoop
产品商业化及技术支持的公司)。
注:Hadoop 名称的来历——Hadoop 原本是小 Doug Cutting 的大象玩具。
作为Google MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google
的Google File System文件系统、MapReduce并行算法以及BigTable。因此,
Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。
当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为
Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现
故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduce
Hadoop云计算技术介绍 第 4 页 共 17 页
的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展——
依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有
处理PB级数据的能力。
虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持
多种编程语言,如C++。
Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如搜索
结果分析等)提供支持的Web扩展(web-scale)服务。
2. 算法思想——Hadoop 是怎么思考的
MapReduce 主要反映了映射和规约两个概念,分别完成映射操作和规约操作。映
射操作按照需求操作独立元素组里面的每个元素,这个操作是独立的,然后新建
一个元素组保存刚生成的中间结果。因为元素组之间是
文档评论(0)