- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MapReduce官方文档翻译2.6.0
Hadoop2.6.0官方MapReduce文档翻译一、前提条件:? ? 1、已经安装了Hadoop,并且正确配置了运行环境,Hadoop已经正常运行中;二、概述:? ? ? ? Hadoop MapReduce是一套软件框架,可以轻松编写程序处理大数据集(几千兆的数据集)的合计问题,?程序能并行在可靠的,可容错的大集群(成千个节点)商用硬件上。? ? ? ? MapReduce 工作(MapReduce job)通过许多完全并行的“map任务”(map task),将输入的数据集处理成为许多独立的“数据块”(chunk)。? ? ? ? map任务(Maps)处理完成后,将结果输出到“reduce任务”(reduce task)。通常输入和输出都存储在hadoop文件系统中。? ? ? ? 框架负责调度任务,监视任务运行情况和重启失败的任务。? ? ? ? 通常“计算节点”(compute node)和“存储节点”(storage node)是一样的,因为MapReduce框架和Hadoop分布式文件系统是运行在相同的节点配置上。相同配置的好处是,框架可以很方便的把调度作业,实施在有数据的节点上运行,避免过度消耗集群间的带宽。? ? ? ? MapReduce框架由一个主节点的ResuorceManager,每个隶属节点的NodeManager和每个应用程序的 MRAppMaster组成的。? ? ? ? 最低限度,应用程序需要指定Input和Output的位置,同时还要通过接口或者虚类实现map和reduce方法。所有这些和其他的参数,都将包含在Job配置(Job Configuration)中。? ? ? ? 然后,Hadoop作业客户端(Hadoop job client),向ResourceManager提交作业(作业可以是jar包,也可以是可执行文件)及配置,ResourceManager负责将作业及配置分配到隶属节点(slaves),然后调整任务和监视任务的执行状态,并将任务运行状态、监听信息提供给Hadoop作业客户端。? ? ? ? 虽然,Hadoop框架是有java写的,但是MapReduce程序不一定要用Java来写。? ? ? ? 比如:? ? ? ? Hadoop Streaming就是一个通用的方式,允许用户通过任何可运行的Mapper和Reducer来运行作业(如:Shell Utilities)。? ? ? ? Hadoop Pipes 是一个SWIG工具,兼容C++应用程序接口(C++ API)实现MapReduce应用程序。三、Input和Output介绍:? ??? ? ? ? MapReduce框架唯一操作方式就是基于对“键-值”(key,value)对的操作。MapReduce框架视向job输入的数据集为“键-值”对,Job输出的结果集也为“键-值”对,“键-值”可以是不同的类型。? ? ? ? key和value的类型必须是框架能够序列化的类型,因此,该类型必须实现Writable接口。此外,key的类型还必须实现WritableComparable,以方便框架进行分类。? ?? ? ?Input和Output的工作流程如下:? ? ? ??(Input)k1,v1 - mapk2,v2 - combinek2,v2 - reducek3,v3(Output)四、WordCount实例:? ?? ? ? ? 在进入细节之前,我们来通过一个MapReduce实例,让大家了解一下MapReduce是如何工作的。WordCount程序,实现单词出现次数的统计功能。? ? ? ? 1、设置好环境变量:~/.bashrc;? ? ? ? 2、编译java文件,生成class文件;? ? ? ? 3、打包class文件为jar文件;? ? ? ? 4、运行jar文件中的class;五、WordCount实例解析过程:? ? ? ? 1、Mapper的实现,通过map方法,每次只处理一行输入数据,由指定的TextInputFormat提供行数据;? ? ? ? 2、通过“空格”分隔符,取得单词,输入key,value;? ? ? ? 3、(本地聚合)指定combiner?,每个map的输出,都会经过本地的combiner进行本地聚合(每个job配置中combiner和reducer是一样的),对所有的key进行分类;? ? ? ? 4、Reducer的实现,通过reduce方法,对所有values中出现的每个Key进行合计;? ? ? ? 5、在main方法中,为Job对象指定各方面的设置,诸如:input和output文件目录、key和value数据类型、input和output的format等
您可能关注的文档
- 2018高三数学9月考试卷理科.pdf
- 2018高三物理拔高作业.doc
- 2018高三上学期期末华附、省实、广雅、深中四校联考【评分细则】.doc
- 2018高三海淀期末微写作指导.doc
- 2018高中地图导学稿(学生版).doc
- 2018高三物理拔高作业九.doc
- 2018高三语文最新病句练习.doc
- 2018高二一轮复习试题-中国地理A卷答案带解析.doc
- 2018高二上学期苏州学业水平测试物理.docx
- 2018高二上学期苏州学业水平测试生物.docx
- MATLAB与经济模型上机作业3.docx
- MATLAB与经济模型上机作业5.docx
- MBA经典案例分析-基于生态文明的广西新型城镇化的难点及对策(胡XX-周末2班-).docx
- MAYA-2015-国际认证校园讲义-模拟试题解答.docx
- MATLAB_7.x部分答案及拟合结果.doc
- MDT-046检验、测量和试验设备控制管理指引.doc
- MDAS工程建设指导原则(2015年版).docx
- MBA逻辑精练300题归类练习直接打印版.doc
- Microsoft-Word---SOP-EHS-HE-603-呼吸保护程序.pdf
- Module-2-My-New-Teachers-导学案打印.docx
最近下载
- 22J403-1 楼梯 栏杆 栏板(一) (3).pdf VIP
- 口腔科门诊护士接诊流程ppt新版【16页】.pptx VIP
- 课件:土壤有机质的测定.ppt VIP
- 2025年蜀道投资集团有限责任公司招聘笔试备考试题及答案解析.docx VIP
- 材料与试验协会 E 3-2001金相试样的制备方法(中文版).pdf VIP
- 设备台账标准格式.xls VIP
- 动火作业施工方案模板.docx
- 玩家国度ROG STRIX Z790-E GAMING WIFI 主板 ROG STRIX Z790-E GAMING WIFI 简体中文版使用手册.pdf
- 2025年蜀道投资集团有限责任公司招聘笔试备考题库及一套答案详解.docx
- 2025年辅警招考时事政治考题及答案.docx VIP
文档评论(0)