- 6
- 0
- 约3.95千字
- 约 22页
- 2018-09-17 发布于浙江
- 举报
厦门大学数据库实验室-蔡珉星-数据倾斜情况下基于
数据倾斜情况下 基于MapReduce的Join算法优化 报告人:蔡珉星 厦大数据库实验室 2014-08-16 遇到的问题 目录 优化思路 - 改进Partition Partition在两表连接中的改进 LEEN算法 Part 1 优化思路 - 改进Partition MapReduce中的Partition: 在Map端输出时,需要对key进行分区,来决定输出数据传输到哪个reducer上进行处理。 默认的partition是通过哈希操作来决定分配到哪个reducer。 哈希Partition的局限 哈希在数据均衡的情况下,可以很好的将数据平均到各个Reducer上,但在数据倾斜情况下,会导致某几个Key的值大量集聚在单个Reducer上。 Partition 哈希实际上是一种针对键的分组均衡分配,不能保证数据量均衡分配 Reduce-side Join: Map-side Join(复制连接、半连接)对数据集要求较高,一般情况下Join操作是采用Reduce-side Join - 重分区连接:将键相同的数据分到同一个reducer,再进行Join。 优化重分区连接: 区分大小数据集,将小数据集读取到内存中,再用小数据集来遍历大数据集。 优化重分区连接的精髓就在于Reduce端
您可能关注的文档
最近下载
- AQ3021_化学品生产单位吊装作业安全规范.pdf VIP
- 公交枢纽站场工程监理规划范本.docx
- 动火作业安全规范(AQ3022-2008)(A4-4).pdf VIP
- 云连锁招商代运营服务.pdf VIP
- 上海市浦东新区2024−2025学年高二下学期期末教学质量检测 数学试卷(含解析).docx VIP
- 2024-2025学年上海市浦东新区高二下学期期末质量检测数学试卷含详解.docx VIP
- 软件项目投标技术方案(技术方案).pdf VIP
- 揿针教学课件.ppt
- 尾矿库安全监测技术规范.pdf VIP
- 《建筑工程建筑面积计算规范》gbt50353-2025secret.docx VIP
原创力文档

文档评论(0)