- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精通HADOOP 【来自博客】
—来自罗伯特的技术博客
精通HADOOP (一)- 翻译前言
云计算是一个越来越流行的分布式计算技术,Hadoop 是云计算的开发平台(PAAS),于是,
我已经学习有一段时间了,先后看了如下两本相关的书籍,
Hadoop: The Definitive Guide(点击下载原版英文版) (点击进入我的下载主页)
Apress - Pro Hadoop(点击下载原版英文版) (点击进入我的下载主页)
在网络上搜索了一下,前者已经有出版社翻译成中文版,中文版名称是《Hadoop 权威指
南》,但是,后者却没有,于是,萌生一个念头,把第二本书翻译成中文,希望能对大家有
所帮助。
这本书大约有400 多页,计划每天翻译5 页,需要80 天,排除很多天不能抽出时间进行
翻译,保守估计需要半年时间,我会把翻译出来的章节发布成为日志,最后整理成文档,暂
时命名为《精通Hadoop》,希望大家关注,也感谢大家的支持。
精通HADOOP (二)- 初识Hadoop - MapReduce 模型介绍
1 初识 Hadoop
一个独立的低端硬件通常不能满足应用程序对资源的需求。许多企业发现他们的业务流软件
并不是安装在一台成本效益较好的计算机上。对于他们来说,一个简单的解决方案就是购买
具有更多内存和CPU 的高端硬件,这通常需要巨额资金。这个解决方案能够达到理想的效
果只要你能买到最高端的硬件,但是通常来说,预算是最主要的问题。我们有另外一个可选
方案,那就是构建一个高性能的集群。一个集群能够模拟成为一个单个计算机,然而,它需
要专业的安装和管理服务。现今,存在着许多专有的高性能的并且造价昂贵的集群。
幸运的是,一个更经济的解决方案是通过云计算来获得必要的计算资源。这里是一个典型的
应用场景,你有一大批数据需要进行处理,这些数据分成若干个项,项与项之间不存在依赖
关系,因此,你可以使用单指令多数据(SIMD)算法。Hadoop 核心提供了云计算的开源
框架和一个分布式文件系统。
Hadoop 是阿帕奇软件基金下的一个著名的项目。这本书是一本在Hadoop 核心上开发和
运行软件的使用指南。这章节介绍了Hadoop 核心,讲述了如何去安装也运行Hadoop。
1.1 MapReduce 模型介绍
Hadoop 完全支持MapReduce 模型,MapReduce 模型是谷歌公司为了在廉价的计算机
集群上处理以P 数量级计算的大数据集而发明的一个解决方案。这个解决方案把解决问题
分成两个截然不同的步骤:
l Map: 初始化数据的读入和转换,独立的输入记录是被并行处理的。
l Reduce: 处理数据的组合和抽样,关联的数据必须通过一个模块进行集中处理。
Hadoop 中MapReduce 的核心概念是把输入的数据分成不同的逻辑块,Map 作业首先对
每一块进行独立而并行的处理。这些独立的处理块的结果会被重新组合成不同的排序的集合,
这些集合最后由Reduce作业进行处理。图表1-1 阐述了MapReduce模型是如何工作的。
图表 1-1 MapReduce 模型
一个Map 作业可以执行在集群中的任何一个计算机节点上。多个Map 作业可以并行的执
行在集群中的多个节点上。Map 作业负责转换输入记录成为名值对。所有Map 作业的输出
会被重新组合成多个排序的集合,这里面的每一个集合会被派发给一个单独的Reduce 作
业。Reduce 作业会对集合中排序的键值和关联在键值的多个数据值进行处理。Reduce 任
务也是并行的运行在集群中的。
应用程序开发人员仅仅需要提供4 项输入给Hadoop框架:读取和转换输入记录到键值对的
作业类,一个Map 方法,一个Reduce 方法和一个转换键值到输出记录的Reduce 作业类。
我的第一个MapReduce应用程序是一个专业的网络爬虫。这个爬虫接受大量的网页地址,
然后读取和处理网页地址的内容。因为这个应用要处理大量的网页地址,所以获取他们的内
容是极其浪费时间和资源的。整个处理流程包含一下几个步骤,
1. 输入网页地址和获得网页地址关联的元数据。
2. 规格化网页地址。
3. 排除重复的网页地址。
4. 通过预定义的排除和包含过滤器过滤网页地址。
5. 通过预定义的非取内容列表过滤网页地址。
6. 通过预定义最近已看列表过滤
您可能关注的文档
最近下载
- 钳工高级理论+技能.doc
- 建筑施工企业全套安全资料(生产责任制、管理制度等).doc
- KW系统集成公司平衡计分卡实施 踏瑞绩效管理智能反馈比赛软件 参考答案.pdf VIP
- 专题二 函数与导数(2020-2024)五年高考《数学》真题分类汇编(解析版).docx VIP
- 西方文学理论 马工程 13.第十二章 英美新批评文论.ppt VIP
- 高考数学五年(2020-2024)真题《函数概念与基本初等函数》分类汇编含答案.docx VIP
- 第9课 隋唐时期的经济、科技与文化(教案)(表格式)【中职专用】《中国历史》(高教版2023基础模块).pdf VIP
- 婴幼儿肥胖管理专家共识(2025).pptx VIP
- 职业生涯规划:物流管理.pptx VIP
- 全程对中心静脉导管尖端位置的质量控制管理题库答案-2025年华医网继续教育.docx VIP
原创力文档


文档评论(0)