hadoop 数据倾斜.pdfVIP

下载本文档

38
0
约9.33千字
约 6页
2017-09-16 发布于浙江
举报

hadoop 数据倾斜.pdf

lloonnggsshheennllmmjj的的专专栏栏 hhaaddoooopp 数数据据倾倾斜斜分类： hadoop 2013-12-13 16:36 27 阅读评论 (0) 收藏举报 hadoop数据倾斜数据倾斜是指，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个 reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。阿里的这篇比较实用，通俗易懂:数据倾斜总结 /archives/2109 有篇分析比较详细，如果需要使用可以细读： /core_cto/article/details/8644692 浅析 Hadoop 中的数据倾斜 · 症状和原因： · 操作：join,group by,count distinct · 原因：key分布不均匀，为的建表疏忽，业务数据特点。 · 症状：任务进度长时间维持在99% （或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

hadoop 数据倾斜.pdfVIP