MapReduce海量数据并行处理ch.04.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MapReduce海量数据并行处理ch.04

Hadoop MapReduce主要组件 文件输入格式InputFormat InputFormat: Description: Key: Value: TextInputFormat Default format; reads lines of text files The byte offset of the line The line contents KeyValueTextInput Format Parses lines into key-val pairs Everything up to the first tab character The remainder of the line SequenceFileInputFormat A Hadoop-specific high-performance binary format user-defined user-defined Hadoop MapReduce主要组件 输入数据分块InputSplits InputSplit定义了输入到单个Map 任务的输入数据 一个MapReduce程序被统称为 一个Job,可能有上百个任务构成 InputSplit将文件分为64MB的大小 配置文件hadoop-site.xml中的mapred.min.split.size参数控制这个大小 mapred.tasktracker.map.taks.maximum用来控制某一个节点上所有map任务的最大数目 Hadoop MapReduce主要组件 数据记录读入RecordReader InputSplit定义了一项工作的大小, 但是没有定义如何读取数据 RecordReader实际上定义了如何 从数据上转化为一个(key,value)对 的详细方法,并将数据输出到Mapper类中 TextInputFormat提供了LineRecordReader Hadoop MapReduce主要组件 Mapper 每一个Mapper类的实例生成了 一个Java进程(在某一个 InputSplit上执行) 有两个额外的参数OutputCollector 以及Reporter,前者用来收集中间 结果,后者用来获得环境参数以及设置当前执行的状态。 现在用Mapper.Context提供给每一个Mapper函数,用来提供上面两个对象的功能 Hadoop MapReduce主要组件 Combiner 合并相同key的键值对,减少partitioner时候的数据通信开销 conf.setCombinerClass(Reduce.class); 是在本地执行的一个Reducer,满足一定的条件才能够执行。 Hadoop MapReduce主要组件 Partitioner Shuffle 在Map工作完成之后,每一个 Map函数会将结果传到对应的Reducer所在的节点,此时,用户可以提供一个Partitioner类,用来决定一个给定的(key,value)对传输的具体位置 Sort 传输到每一个节点上的所有的Reduce函数接收到得Key,value对会被Hadoop自动排序(即Map生成的结果传送到某一个节点的时候,会被自动排序) Hadoop MapReduce主要组件 Reducer 做用户定义的Reduce操作 接收到一个OutputCollector的 类作为输出 最新的编程接口是Reducer.Context Hadoop MapReduce主要组件 文件输出格式OutputFormat 写入到HDFS的所有OutputFormat都继承自FileOutputFormat 每一个Reducer都写一个文件到一个共同的输出目录,文件名是part-nnnnn,其中nnnnn是与每一个reducer相关的一个号(partition id) FileOutputFormat.setOutputPath() JobConf.setOutputFormat() Hadoop MapReduce主要组件 文件输出格式OutputFormat RecordWriter TextOutputFormat实现了缺省的LineRecordWriter,以”key\t value”形式输出一行结果。 OutputFormat: Description TextOutputFormat Default; writes lines in key \t value form SequenceFileOutputFormat Writes binary files su

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档