精通Hadoop【来自博客】.pdfVIP

下载本文档

3
0
约8.94万字
约 72页
2017-08-29 发布于江苏
举报
版权申诉

精通Hadoop【来自博客】.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精通HADOOP 【来自博客】 —来自罗伯特的技术博客精通HADOOP （一）- 翻译前言云计算是一个越来越流行的分布式计算技术，Hadoop 是云计算的开发平台(PAAS)，于是，我已经学习有一段时间了，先后看了如下两本相关的书籍，  Hadoop: The Definitive Guide(点击下载原版英文版) (点击进入我的下载主页)  Apress - Pro Hadoop(点击下载原版英文版) (点击进入我的下载主页) 在网络上搜索了一下，前者已经有出版社翻译成中文版，中文版名称是《Hadoop 权威指南》，但是，后者却没有，于是，萌生一个念头，把第二本书翻译成中文，希望能对大家有所帮助。这本书大约有400 多页，计划每天翻译5 页，需要80 天，排除很多天不能抽出时间进行翻译，保守估计需要半年时间，我会把翻译出来的章节发布成为日志，最后整理成文档，暂时命名为《精通Hadoop》，希望大家关注，也感谢大家的支持。精通HADOOP （二）- 初识Hadoop - MapReduce 模型介绍 1 初识 Hadoop 一个独立的低端硬件通常不能满足应用程序对资源的需求。许多企业发现他们的业务流软件并不是安装在一台成本效益较好的计算机上。对于他们来说，一个简单的解决方案就是购买具有更多内存和CPU 的高端硬件，这通常需要巨额资金。这个解决方案能够达到理想的效果只要你能买到最高端的硬件，但是通常来说，预算是最主要的问题。我们有另外一个可选方案，那就是构建一个高性能的集群。一个集群能够模拟成为一个单个计算机，然而，它需要专业的安装和管理服务。现今，存在着许多专有的高性能的并且造价昂贵的集群。幸运的是，一个更经济的解决方案是通过云计算来获得必要的计算资源。这里是一个典型的应用场景，你有一大批数据需要进行处理，这些数据分成若干个项，项与项之间不存在依赖关系，因此，你可以使用单指令多数据（SIMD）算法。Hadoop 核心提供了云计算的开源框架和一个分布式文件系统。 Hadoop 是阿帕奇软件基金下的一个著名的项目。这本书是一本在Hadoop 核心上开发和运行软件的使用指南。这章节介绍了Hadoop 核心，讲述了如何去安装也运行Hadoop。 1.1 MapReduce 模型介绍 Hadoop 完全支持MapReduce 模型，MapReduce 模型是谷歌公司为了在廉价的计算机集群上处理以P 数量级计算的大数据集而发明的一个解决方案。这个解决方案把解决问题分成两个截然不同的步骤: l Map: 初始化数据的读入和转换，独立的输入记录是被并行处理的。 l Reduce: 处理数据的组合和抽样，关联的数据必须通过一个模块进行集中处理。 Hadoop 中MapReduce 的核心概念是把输入的数据分成不同的逻辑块，Map 作业首先对每一块进行独立而并行的处理。这些独立的处理块的结果会被重新组合成不同的排序的集合，这些集合最后由Reduce作业进行处理。图表1-1 阐述了MapReduce模型是如何工作的。图表 1-1 MapReduce 模型一个Map 作业可以执行在集群中的任何一个计算机节点上。多个Map 作业可以并行的执行在集群中的多个节点上。Map 作业负责转换输入记录成为名值对。所有Map 作业的输出会被重新组合成多个排序的集合，这里面的每一个集合会被派发给一个单独的Reduce 作业。Reduce 作业会对集合中排序的键值和关联在键值的多个数据值进行处理。Reduce 任务也是并行的运行在集群中的。应用程序开发人员仅仅需要提供4 项输入给Hadoop框架:读取和转换输入记录到键值对的作业类，一个Map 方法，一个Reduce 方法和一个转换键值到输出记录的Reduce 作业类。我的第一个MapReduce应用程序是一个专业的网络爬虫。这个爬虫接受大量的网页地址，然后读取和处理网页地址的内容。因为这个应用要处理大量的网页地址，所以获取他们的内容是极其浪费时间和资源的。整个处理流程包含一下几个步骤， 1. 输入网页地址和获得网页地址关联的元数据。 2. 规格化网页地址。 3. 排除重复的网页地址。 4. 通过预定义的排除和包含过滤器过滤网页地址。 5. 通过预定义的非取内容列表过滤网页地址。 6. 通过预定义最近已看列表过滤