hadoop学习总结.pptVIP

  • 20
  • 0
  • 约5.18千字
  • 约 32页
  • 2017-08-27 发布于河南
  • 举报
MapReduce是 Hadoop程序的体现。框架极其简单:首先是对MapReduce程序运行前的参数配置,然后编写Map类(实现Map方法),最后是Reduce类(实现Reduce方法)。 MapReduce程序的每个细节都与设置的参数有很大的关系,参数设置的好,程序的效率肯定得到提高。 Map方法:Map(k1,v1)?-list(k2,v2) ,并行应用于每一个输入的数据集,每一次调用都会产生一个(k2,v2)的队列 。 Reduce方法:Reduce(k2,list(v2))?-?list(k3,v3)。收集map端输出队列list(k2,v2)中有相同key的数据对,把它们聚集在一起,输出时形成目的数据?list(k3,v3)。 优化内容 最佳实践 mapper的数量 运行mapper需要多长时间? reducer的数量 为了达到最高性能,reducer的数目应该比reducer槽(由内存和tasktracker槽决定)的数目稍微少一点,这将reducer使reducer能够在同一波中完成任务。 combiner 作业能否充分利用combiner来减少通过shuffle传输的数据 中间值的产生 对map输出进行压缩能使作业执行更快 自定义序列 如果正在使用自定义的writable对象或自定义的comparator,则必须确保已实现RawComparator shuffle

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档