Hadoop大数据开发基础第2版第4章 MapReduce编程入门.pptVIP

下载本文档

113
0
约8.73千字
约 56页
2022-09-04 发布于甘肃
举报

Hadoop大数据开发基础第2版第4章 MapReduce编程入门.ppt

* * * * * * * * * 了解MapReduce工作原理及核心组成数据分片数据映射 MapReduce通过数据分片的方式切分数据，将数据分发给多个单元进行处理，这也是分布式计算的第一步。在数据分片完成后，由Mapper助理InputFormat从文件的输入目录中读取数据，再由Mapper中的map()方法对文件的数据进行解析，并重新组织成新的格式，Mapper会将数据转换为键,值的键值对形式，再进行处理。最后Mapper将处理结果输出，等待Shuffle运输队取走结果。了解MapReduce工作原理及核心组成数据归约 Reducer接收已排序的结果后，由Reducer中的reduce()方法对结果进行汇总与计算，得到最终结果。最后由Reducer助理OutputFormat将结果输出至指定位置。数据输出 Reduce阶段处理完数据后即可将数据文件输出到HDFS，输出的存储数据文件个数和Reduce的个数一致。数据混洗由Shuffle运输队将获取的结果按照相同的键（Key）进行汇集，再将结果发送至Shuffle助理Sorter，由Sorter负责对汇集的结果进行排序，并且Sorter是根据键（Key）进行排序的，再将排序后的结果提交给Reducer。了解MR实现词频统计的执行流程理解MapReduce的基本原理和核心组成后，以词频统计为例，进一步了解MapReduce各阶段的执行流程。单词的输入与词频统计输出内容输入输出 Hello World Our World Hello BigData Real BigData Hello Hadoop Great Hadoop Hadoop MapReduce BigData 2 Great 1 Hadoop 3 Hello 3 MapReduce 1 Our 1 Real 1 World 2 键值对（Key-Value Pair）是一种数据格式，每个键都有一个对应的值。输入文件的每一行记录经过映射处理后输出为若干组键值对。Map阶段生成键值对后，提交中间输出结果进入Reduce阶段。了解MR实现词频统计的执行流程 1. Map阶段的处理过程在Map阶段输出与Reduce阶段输入之间有一个Shuffle过程。Shuffle过程也被称为数据混洗过程，作用是将键相同的键值对进行汇集，并将键相同的值存入同一列表中。了解MR实现词频统计的执行流程 2. Reduce阶段的处理过程本小节的任务是以Hadoop官方提供的示例源码中的WordCount程序为例，进行代码级别的分析和说明。首先获取WordCount的源代码。在Hadoop 3.1.4的安装目录中，进入\share\hadoop\mapreduce\sources目录，该目录下面有一个hadoop-mapreduce- examples-3.1.4-sources.jar文件，解压该缩文件。在org/apache/hadoop/examples子目录中即可找到一个WordCount.java的文件，即为WordCount程序的源代码。读懂官方提供的WordCount源码 Driver程序主要指的是main方法，即MapReduce程序的入口，在main方法里面进行MapReduce程序的一些初始化设置，并提交任务，等待程序运行完成。读懂官方提供的WordCount源码 1. 应用程序Driver模块读懂官方提供的WordCount源码读懂官方提供的WordCount源码在MapReduce程序中，主要的代码实现包括了Mapper模块中的map()方法以及Reducer模块中的reduce()方法。在WordCount源码中，Mapper模块对应源码中的TokenizerMapper类。自定义TokenizerMapper（代码第36～37行），需要继承Mapper父类，同时需要设置输入/输出键值对格式，其中输入键值对格式要和输入格式设置的类需要读取生成的键值对格式匹配??，而输出键值对格式需要和Driver中设置的Mapper输出的键值对格式匹配。读懂官方提供的WordCount源码 2. Mapper模块 Mapper类共有3个方法，分别是setup()、map()、cleanup()。若TokenizerMapper类要使用Mapper类的方法，则需要重写Mapper类里面的方法。 Mapper任务启动后首先执行setup()方法，该方法主要用于初始化工作。 map()方法针对每条输入键值对执行方法中定义的逻辑处理，并按规定的键值对格式输出。在所有键值对处理完成后，再调用cleanup()方法，cleanup方法主要用于关闭资源等操作。 map()方法的代码实现要与实

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Hadoop大数据开发基础第2版第4章 MapReduce编程入门.pptVIP