- 113
- 0
- 约8.73千字
- 约 56页
- 2022-09-04 发布于甘肃
- 举报
* * * * * * * * * 了解MapReduce工作原理及核心组成 数据分片 数据映射 MapReduce通过数据分片的方式切分数据,将数据分发给多个单元进行处理,这也是分布式计算的第一步。 在数据分片完成后,由Mapper助理InputFormat从文件的输入目录中读取数据,再由Mapper中的map()方法对文件的数据进行解析,并重新组织成新的格式,Mapper会将数据转换为键,值的键值对形式,再进行处理。最后Mapper将处理结果输出,等待Shuffle运输队取走结果。 了解MapReduce工作原理及核心组成 数据归约 Reducer接收已排序的结果后,由Reducer中的reduce()方法对结果进行汇总与计算,得到最终结果。最后由Reducer助理OutputFormat将结果输出至指定位置。 数据输出 Reduce阶段处理完数据后即可将数据文件输出到HDFS,输出的存储数据文件个数和Reduce的个数一致。 数据混洗 由Shuffle运输队将获取的结果按照相同的键(Key)进行汇集,再将结果发送至Shuffle助理Sorter,由Sorter负责对汇集的结果进行排序,并且Sorter是根据键(Key)进行排序的,再将排序后的结果提交给Reducer。 了解MR实现词频统计的执行流程 理解MapReduce的基本原理和核心组成后,以词频统计为例,进一步了解MapReduce各阶段的执行流程。 单词的输入与词频统计输出内容 输入 输出 Hello World Our World Hello BigData Real BigData Hello Hadoop Great Hadoop Hadoop MapReduce BigData 2 Great 1 Hadoop 3 Hello 3 MapReduce 1 Our 1 Real 1 World 2 键值对(Key-Value Pair)是一种数据格式,每个键都有一个对应的值。输入文件的每一行记录经过映射处理后输出为若干组键值对。Map阶段生成键值对后,提交中间输出结果进入Reduce阶段。 了解MR实现词频统计的执行流程 1. Map阶段的处理过程 在Map阶段输出与Reduce阶段输入之间有一个Shuffle过程。Shuffle过程也被称为数据混洗过程,作用是将键相同的键值对进行汇集,并将键相同的值存入同一列表中。 了解MR实现词频统计的执行流程 2. Reduce阶段的处理过程 本小节的任务是以Hadoop官方提供的示例源码中的WordCount程序为例,进行代码级别的分析和说明。 首先获取WordCount的源代码。在Hadoop 3.1.4的安装目录中,进入\share\hadoop\mapreduce\sources目录,该目录下面有一个hadoop-mapreduce- examples-3.1.4-sources.jar文件,解压该缩文件。在org/apache/hadoop/examples子目录中即可找到一个WordCount.java的文件,即为WordCount程序的源代码。 读懂官方提供的WordCount源码 Driver程序主要指的是main方法,即MapReduce程序的入口,在main方法里面进行MapReduce程序的一些初始化设置,并提交任务,等待程序运行完成。 读懂官方提供的WordCount源码 1. 应用程序Driver模块 读懂官方提供的WordCount源码 读懂官方提供的WordCount源码 在MapReduce程序中,主要的代码实现包括了Mapper模块中的map()方法以及Reducer模块中的reduce()方法。在WordCount源码中,Mapper模块对应源码中的TokenizerMapper类。 自定义TokenizerMapper(代码第36~37行),需要继承Mapper父类,同时需要设置输入/输出键值对格式,其中输入键值对格式要和输入格式设置的类需要读取生成的键值对格式匹配??,而输出键值对格式需要和Driver中设置的Mapper输出的键值对格式匹配。 读懂官方提供的WordCount源码 2. Mapper模块 Mapper类共有3个方法,分别是setup()、map()、cleanup()。若TokenizerMapper类要使用Mapper类的方法,则需要重写Mapper类里面的方法。 Mapper任务启动后首先执行setup()方法,该方法主要用于初始化工作。 map()方法针对每条输入键值对执行方法中定义的逻辑处理,并按规定的键值对格式输出。 在所有键值对处理完成后,再调用cleanup()方法,cleanup方法主要用于关闭资源等操作。 map()方法的代码实现要与实
您可能关注的文档
- Hadoop大数据开发基础 第2版 第2章 Hadoop集群的搭建及配置.ppt
- Hadoop大数据开发基础 第2版 第3章 Hadoop基础操作.ppt
- Hadoop大数据开发基础 第2版 第6章 Hive数据仓库.ppt
- Hadoop大数据开发基础 第2版 第5章 MapReduce进阶编程.pdf
- Hadoop大数据开发基础 第2版 第7章 HBase分布式数据库.ppt
- Hadoop大数据开发基础 第2版 第8章 项目案例:电影网站用户影评分析.ppt
- Hadoop大数据开发基础 第2版 配套课件.pptx
- 2026小学三年级上学期语文阅读理解必备题型专项练习题库(附答案解析).pdf
- 2026小学三年级下学期语文阅读理解必备题型专项练习题库(附答案解析).pdf
- 老年患者神经系统疾病护理.ppt
最近下载
- 明代宗教信仰与思想控制.docx VIP
- 江苏省南通市2024-2025学年高二上学期期末学业质量监测语文试卷(含答案).pdf VIP
- 国就有成人演出的电影了?想看就要冒生命危险.pdf VIP
- 综合素质练习题及答案.doc VIP
- 2020-2021学年北京高三化学二轮复习 反应原理型简答题(突破二卷)(word版 含答案).docx VIP
- 电力拖动控制线路安装与检修(白银矿冶职业技术学院)知到智慧树答案.docx VIP
- 煤炭巷道掘砌工(高级工)资格考试题库(全真题库).docx VIP
- 影像叙事中情感共鸣生成机制.docx VIP
- 同轴二级圆柱齿轮减速器的设计(硬齿面).doc VIP
- 基于GPU多线程多通道图像高速重构方法、设备及介质.pdf VIP
原创力文档

文档评论(0)