MapReduce海量数据并行处理ch.04.pptVIP

下载本文档

3
0
约1.15万字
约 44页
2018-01-13 发布于河南
举报
版权申诉

MapReduce海量数据并行处理ch.04.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MapReduce海量数据并行处理ch.04

Hadoop MapReduce主要组件文件输入格式InputFormat InputFormat: Description: Key: Value: TextInputFormat Default format; reads lines of text files The byte offset of the line The line contents KeyValueTextInput Format Parses lines into key-val pairs Everything up to the first tab character The remainder of the line SequenceFileInputFormat A Hadoop-specific high-performance binary format user-defined user-defined Hadoop MapReduce主要组件输入数据分块InputSplits InputSplit定义了输入到单个Map 任务的输入数据一个MapReduce程序被统称为一个Job，可能有上百个任务构成 InputSplit将文件分为64MB的大小配置文件hadoop-site.xml中的mapred.min.split.size参数控制这个大小 mapred.tasktracker.map.taks.maximum用来控制某一个节点上所有map任务的最大数目 Hadoop MapReduce主要组件数据记录读入RecordReader InputSplit定义了一项工作的大小，但是没有定义如何读取数据 RecordReader实际上定义了如何从数据上转化为一个(key,value)对的详细方法，并将数据输出到Mapper类中 TextInputFormat提供了LineRecordReader Hadoop MapReduce主要组件 Mapper 每一个Mapper类的实例生成了一个Java进程（在某一个 InputSplit上执行）有两个额外的参数OutputCollector 以及Reporter，前者用来收集中间结果，后者用来获得环境参数以及设置当前执行的状态。现在用Mapper.Context提供给每一个Mapper函数，用来提供上面两个对象的功能 Hadoop MapReduce主要组件 Combiner 合并相同key的键值对，减少partitioner时候的数据通信开销 conf.setCombinerClass(Reduce.class); 是在本地执行的一个Reducer，满足一定的条件才能够执行。 Hadoop MapReduce主要组件 Partitioner Shuffle 在Map工作完成之后，每一个 Map函数会将结果传到对应的Reducer所在的节点，此时，用户可以提供一个Partitioner类，用来决定一个给定的(key,value)对传输的具体位置 Sort 传输到每一个节点上的所有的Reduce函数接收到得Key,value对会被Hadoop自动排序（即Map生成的结果传送到某一个节点的时候，会被自动排序） Hadoop MapReduce主要组件 Reducer 做用户定义的Reduce操作接收到一个OutputCollector的类作为输出最新的编程接口是Reducer.Context Hadoop MapReduce主要组件文件输出格式OutputFormat 写入到HDFS的所有OutputFormat都继承自FileOutputFormat 每一个Reducer都写一个文件到一个共同的输出目录，文件名是part-nnnnn，其中nnnnn是与每一个reducer相关的一个号（partition id） FileOutputFormat.setOutputPath() JobConf.setOutputFormat() Hadoop MapReduce主要组件文件输出格式OutputFormat RecordWriter TextOutputFormat实现了缺省的LineRecordWriter，以”key\t value”形式输出一行结果。 OutputFormat: Description TextOutputFormat Default; writes lines in key \t value form SequenceFileOutputFormat Writes binary files su