《大数据平台部署与运维》课件——MapReduce计数器的基本原理.pptxVIP

下载本文档

1
0
约2.95千字
约 23页
2024-05-07 发布于福建
举报

《大数据平台部署与运维》课件——MapReduce计数器的基本原理.pptx

《大数据平台部署与运维》《大数据平台部署与运维》课程组计数器的基本原理

本节重点计数器的基本概念计数器的基本原理

MapReduce编程过程对于基于MapReduce编程范式的分布式计算来说，本质上而言，就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想，让每个节点只计算部分数据，也就是只处理一个分片，那么要想求得某个key对应的全量数据，那就必须把相同key的数据汇集到同一个Reduce任务节点来处理，那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。

Map端sortMap端的输出数据，先写环形缓存区kvbuffer，当环形缓冲区到达一个阀值（可以通过配置文件设置，默认80），便要开始溢写，但溢写之前会有一个sort操作，这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。

spill（溢写）当排序完成，便开始把数据刷到磁盘，刷磁盘的过程以分区为单位，一个分区写完，写下一个分区，分区内数据有序，最终实际上会多次溢写，然后生成多个文件

Reduce操作总体过程如下图的红框处：

拉取拷贝（fetchcopy）Reduce任务通过向各个Map任务拉取对应分片。这个过程都是以Http协议完成，每个Map节点都会启动一个常驻的HTTPserver服务，Reduce节点会请求这个HttpServer拉取数据，这个过程完全通过网络传输，所以是一个非常重量级的操作。

合并排序Reduce端，拉取到各个Map节点对应分片的数据之后，会进行再次排序，排序完成，结果丢给Reduce函数进行计算。

HadoopMapReduce——Combiner组件如单词统计问题，若有1亿个单词，就会传输1亿个键值对，合理的使用Combiner可以减少键值对的网络传输，提示效率。Combiner发生在map端，通常与reduce有相同的实现Combiner一般适用于求和，求最大值或最小值，不适用与求平均值声明Combiner类的时候必须继承Reducer

HadoopMapReduce——Combiner组件

HadoopMapReduce–Combiner Mapper-outReducer-inCombinerKeyValue0Thisismy10Whatisthat21AndWhatifKeyValueThis1Is1My1What1Is1That1……KeyValueThis1Is2My1What1And1That1……

HadoopMapReduce–Combiner KeyValue0Thisismy10Whatisthat21AndWhatifKeyValueThis1Is1My1What1……KeyValueThis1Is2My1What1……KeyValue0IloveHadoop10IfIKeyValueI1love1Hadoop1If1i1KeyValueI2Hadoop1If1i1KeyValueThis1Hadoop1If2I2input0input0map0map1combine0combine1reduce0

统计用户每天登录该网站次数 publicclassLogCountCombinerextendsReducerMemberLogTime,IntWritable,MemberLogTime,IntWritable{ @Override protectedvoidreduce(MemberLogTimekey,IterableIntWritablevalue, ReducerMemberLogTime,IntWritable,MemberLogTime,IntWritable.Contextcontext) throwsIOException,InterruptedException{ intsum=0; for(IntWritableval:value){ sum+=val.get(); } context.write(key,newIntWritable(sum)); }}

HadoopMapReduce–——分区器（Partitioner）分区器决定键值对发送的reducer地址

《大数据平台部署与运维》课件——MapReduce计数器的基本原理.pptxVIP

《大数据平台部署与运维》课件——MapReduce计数器的基本原理.pptx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档