Map和ReduceTask数量对于Hadoop性能的影响.pdfVIP

Map和ReduceTask数量对于Hadoop性能的影响.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Map和ReduceTask数量对于Hadoop性能的影响

一、 实验环境 1 个master 节点, 16 个slave 节点: CPU:8GHZ , 内存: 2G 网络:局域网 二、 实验描述 通过Hadoop 自带的Terasort 排序程序,测试不同的map task 和reduce task 数量,对 Hadoop 性能的影响。 实验数据由程序中的teragen 程序生成,数据量为1GB 和10GB。 通过设置mapred.min.split.size,从而调节map task 的数量;设置 mapred.reduce.tasks,从而调节reduce task 的数量; dfs.replication 的值设为3,其它参数默认。 三、 实验结果与分析 Ø 实验一 表1、改变reduce task (数据量为1GB) Map task = 16 Reduce task 1 5 10 15 16 20 25 30 45 60 总时间 892 146 110 92 88 100 128 101 145 104 Map 时间 24 21 25 50 21 40 24 48 109 25 Reduce 时间 875 125 88 71 67 76 102 80 98 83 Killed map/reduce 0/0 0/2 0/2 0/5 0/4 0/9 0/9 0/8 1/7 0/17 Task Attempts 结果分析: 1) 当reduce task 的值小于15 时,总时间和Reduce 时间都与Reduce task 数量成 反比关系。当reduce task 的值大于15 时,总时间和reduce 时间基本保持恒定。Reduce task 的数量应该设置为接近slave 节点数量,或者适当大于节点数,不宜设置为比节点数 量小太多。 2) Map 时间与Reduce task 之间没有明显的关系。 3) Killed map Task Attempts 的值对Map 的时间影响很大,表1 中当reduce task = 45 时,Killed map Task Attempts 的值为1,此时Map 的时间很长,从图1 可看出,map 的时间主要集中在map 99%的最后阶段。 4) job 运行过程中产生Killed Task Attempts 的原因:这是因为hadoop 里面对task 的speculative 机制。简单来说就是hadoop 觉得有些task 运行过慢,所以它在其它 tasktracker 上同时再运行同样的任务,当其中一个完成后,其余同样的任务就会被kill 掉。这就造成有多个被kill 的taskattempt 。可以通过设置 mapred.map.tasks.speculative.execution 为false 来禁止hadoop 的这种行为,这样可以 提高效率,因为每个speculative 都是占用task 的slot 的。 图1、表1 中当reduce task = 45 的执行过程 Ø 实验二 表2 改变reduce task(数据量为1GB) Reduce task = 15 Map task 2 4 8 16 Input Split Size 512 256 12864 总时间 372 181 120 120 平均 Map 时间 287 63 38 26 Map 结束时间 292 49 35 36 平均Shuffle 时间 12 42

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档