hadoop学习总结.pptVIP

下载本文档

20
0
约5.18千字
约 32页
2017-08-27 发布于河南
举报

hadoop学习总结.ppt

MapReduce是 Hadoop程序的体现。框架极其简单：首先是对MapReduce程序运行前的参数配置，然后编写Map类(实现Map方法)，最后是Reduce类(实现Reduce方法)。 MapReduce程序的每个细节都与设置的参数有很大的关系，参数设置的好，程序的效率肯定得到提高。 Map方法：Map(k1,v1)?-list(k2,v2) ，并行应用于每一个输入的数据集，每一次调用都会产生一个(k2,v2)的队列。 Reduce方法：Reduce(k2,list(v2))?-?list(k3,v3)。收集map端输出队列list(k2,v2)中有相同key的数据对，把它们聚集在一起，输出时形成目的数据?list(k3,v3)。优化内容最佳实践 mapper的数量运行mapper需要多长时间？ reducer的数量为了达到最高性能，reducer的数目应该比reducer槽（由内存和tasktracker槽决定）的数目稍微少一点，这将reducer使reducer能够在同一波中完成任务。 combiner 作业能否充分利用combiner来减少通过shuffle传输的数据中间值的产生对map输出进行压缩能使作业执行更快自定义序列如果正在使用自定义的writable对象或自定义的comparator，则必须确保已实现RawComparator shuffle

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

hadoop学习总结.pptVIP