- 38
- 0
- 约9.33千字
- 约 6页
- 2017-09-16 发布于浙江
- 举报
lloonnggsshheennllmmjj的的专专栏栏
hhaaddoooopp 数数据据倾倾斜斜
分类: hadoop 2013-12-13 16:36 27 阅读 评论 (0) 收藏 举报
hadoop数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个
reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多
(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,
从而导致某几个节点迟迟运行不完。
阿里的这篇比较实用,通俗易懂:数据倾斜总结 /archives/2109
有篇分析比较详细,如果需要使用可以细读:
/core_cto/article/details/8644692 浅析 Hadoop 中的数据倾斜
· 症状和原因:
· 操作:join,group by,count distinct
· 原因:key分布不均匀, 为的建表疏忽,业务数据特点。
· 症状:任务进度长时间维持在99% (或100%),查看任务监控页面,发现只有少量 (1个或
几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量
您可能关注的文档
- 黔西南联通2012年GSM无线网络优化总结报告-华为技术服务有限公司.doc
- 黔西南联通2012年WCDMA无线网络优化总结报告-华为技术服务有限公司.docx
- 倾听孩子---儿童教育方式.doc
- 清产核资中的相关鉴证业务的风险控制及其桉例分析.ppt
- 全国通用会计基础知识重点讲解.doc
- 全面建设小康社会幻灯片资料.ppt
- 热力公司家属院三室120平米新中式装修设计.doc
- 人体骨骼ying幻灯片资料.ppt
- 如东海正药业环境影响报告书简本简本.doc
- 如何踏出成功的第一步----------安利事业如何开始做,.doc
- 莆田市秀屿区2025-2026学年第二学期六年级语文期末考试卷(部编版含答案).docx
- 日喀则地区定结县2025-2026学年第二学期六年级语文第八单元测试卷(部编版含答案).docx
- 商业5.0时代大型商超盈利模式研究——以永辉超市为例.pdf
- 烟台市长岛县2025-2026学年第二学期二年级语文第八单元测试卷(部编版含答案).docx
- 伊春市南岔区2025-2026学年第二学期四年级语文第八单元测试卷(部编版含答案).docx
- 新乡市原阳县2025-2026学年第二学期二年级语文期末考试卷(部编版含答案).docx
- 肺结核防治知识试卷与评估标准.docx
- 吕梁市兴县2025-2026学年第二学期四年级语文期末考试卷(部编版含答案).docx
- 延边朝鲜族自治州图们市2025-2026学年第二学期六年级语文第七单元测试卷(部编版含答案).docx
- 忻州市静乐县2025-2026学年第二学期六年级语文第八单元测试卷(部编版含答案).docx
原创力文档

文档评论(0)