hadoop 数据倾斜.pdfVIP

  • 38
  • 0
  • 约9.33千字
  • 约 6页
  • 2017-09-16 发布于浙江
  • 举报
lloonnggsshheennllmmjj的的专专栏栏 hhaaddoooopp 数数据据倾倾斜斜 分类: hadoop 2013-12-13 16:36 27 阅读 评论 (0) 收藏 举报 hadoop数据倾斜 数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个 reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多 (有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多, 从而导致某几个节点迟迟运行不完。   阿里的这篇比较实用,通俗易懂:数据倾斜总结 /archives/2109 有篇分析比较详细,如果需要使用可以细读: /core_cto/article/details/8644692 浅析 Hadoop 中的数据倾斜   ·         症状和原因: ·    操作:join,group by,count distinct ·    原因:key分布不均匀, 为的建表疏忽,业务数据特点。 ·    症状:任务进度长时间维持在99% (或100%),查看任务监控页面,发现只有少量 (1个或 几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档