精通Hadoop【来自博客】.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精通HADOOP 【来自博客】 —来自罗伯特的技术博客 精通HADOOP (一)- 翻译前言 云计算是一个越来越流行的分布式计算技术,Hadoop 是云计算的开发平台(PAAS),于是, 我已经学习有一段时间了,先后看了如下两本相关的书籍,  Hadoop: The Definitive Guide(点击下载原版英文版) (点击进入我的下载主页)  Apress - Pro Hadoop(点击下载原版英文版) (点击进入我的下载主页) 在网络上搜索了一下,前者已经有出版社翻译成中文版,中文版名称是《Hadoop 权威指 南》,但是,后者却没有,于是,萌生一个念头,把第二本书翻译成中文,希望能对大家有 所帮助。 这本书大约有400 多页,计划每天翻译5 页,需要80 天,排除很多天不能抽出时间进行 翻译,保守估计需要半年时间,我会把翻译出来的章节发布成为日志,最后整理成文档,暂 时命名为《精通Hadoop》,希望大家关注,也感谢大家的支持。 精通HADOOP (二)- 初识Hadoop - MapReduce 模型介绍 1 初识 Hadoop 一个独立的低端硬件通常不能满足应用程序对资源的需求。许多企业发现他们的业务流软件 并不是安装在一台成本效益较好的计算机上。对于他们来说,一个简单的解决方案就是购买 具有更多内存和CPU 的高端硬件,这通常需要巨额资金。这个解决方案能够达到理想的效 果只要你能买到最高端的硬件,但是通常来说,预算是最主要的问题。我们有另外一个可选 方案,那就是构建一个高性能的集群。一个集群能够模拟成为一个单个计算机,然而,它需 要专业的安装和管理服务。现今,存在着许多专有的高性能的并且造价昂贵的集群。 幸运的是,一个更经济的解决方案是通过云计算来获得必要的计算资源。这里是一个典型的 应用场景,你有一大批数据需要进行处理,这些数据分成若干个项,项与项之间不存在依赖 关系,因此,你可以使用单指令多数据(SIMD)算法。Hadoop 核心提供了云计算的开源 框架和一个分布式文件系统。 Hadoop 是阿帕奇软件基金下的一个著名的项目。这本书是一本在Hadoop 核心上开发和 运行软件的使用指南。这章节介绍了Hadoop 核心,讲述了如何去安装也运行Hadoop。 1.1 MapReduce 模型介绍 Hadoop 完全支持MapReduce 模型,MapReduce 模型是谷歌公司为了在廉价的计算机 集群上处理以P 数量级计算的大数据集而发明的一个解决方案。这个解决方案把解决问题 分成两个截然不同的步骤: l Map: 初始化数据的读入和转换,独立的输入记录是被并行处理的。 l Reduce: 处理数据的组合和抽样,关联的数据必须通过一个模块进行集中处理。 Hadoop 中MapReduce 的核心概念是把输入的数据分成不同的逻辑块,Map 作业首先对 每一块进行独立而并行的处理。这些独立的处理块的结果会被重新组合成不同的排序的集合, 这些集合最后由Reduce作业进行处理。图表1-1 阐述了MapReduce模型是如何工作的。 图表 1-1 MapReduce 模型 一个Map 作业可以执行在集群中的任何一个计算机节点上。多个Map 作业可以并行的执 行在集群中的多个节点上。Map 作业负责转换输入记录成为名值对。所有Map 作业的输出 会被重新组合成多个排序的集合,这里面的每一个集合会被派发给一个单独的Reduce 作 业。Reduce 作业会对集合中排序的键值和关联在键值的多个数据值进行处理。Reduce 任 务也是并行的运行在集群中的。 应用程序开发人员仅仅需要提供4 项输入给Hadoop框架:读取和转换输入记录到键值对的 作业类,一个Map 方法,一个Reduce 方法和一个转换键值到输出记录的Reduce 作业类。 我的第一个MapReduce应用程序是一个专业的网络爬虫。这个爬虫接受大量的网页地址, 然后读取和处理网页地址的内容。因为这个应用要处理大量的网页地址,所以获取他们的内 容是极其浪费时间和资源的。整个处理流程包含一下几个步骤, 1. 输入网页地址和获得网页地址关联的元数据。 2. 规格化网页地址。 3. 排除重复的网页地址。 4. 通过预定义的排除和包含过滤器过滤网页地址。 5. 通过预定义的非取内容列表过滤网页地址。 6. 通过预定义最近已看列表过滤

文档评论(0)

AnDyqaz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档