Hadoop分布式计算中MapReduce Shuffle过程详解.pptx

Hadoop分布式计算中MapReduce Shuffle过程详解.pptx

定义系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。事实上,Shuffle这个定义并不准确。因为在某些语境中,它值代表reduce任务获取map输出的这部分。我们应该理解为从map产生输出到reduce消化输入的整个过程。

圆形缓冲区mappartitionsort[combiner]注意:这两/三个操作是在向磁盘写入前完成的。默认大小100MB(io.sort.mb属性)一旦达到阈值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件

圆形缓冲区mappartitionsort[combiner]partitionsort[combiner]

fetch操作fetchmapmaptaskmapmaptaskmapmaptaskreducereducetaskOthermapsfetchOtherreduces

mergefetchmapmaptaskmapmaptaskmapmaptaskreducereducetaskOthermapsfetchmergemergemergeOtherreducessort[combiner]

案例演示mappartitionsort[combiner]hellotomand

文档评论(0)

1亿VIP精品文档

相关文档