厦门大学数据库试验室-蔡珉星-数据倾斜情况下基于MapReduce的join.PPTVIP

  • 0
  • 0
  • 约3.95千字
  • 约 22页
  • 2017-11-26 发布于天津
  • 举报

厦门大学数据库试验室-蔡珉星-数据倾斜情况下基于MapReduce的join.PPT

厦门大学数据库试验室-蔡珉星-数据倾斜情况下基于MapReduce的join

数据倾斜情况下 基于MapReduce的Join算法优化 报告人:蔡珉星 厦大数据库实验室 2014-08-16 遇到的问题 目录 优化思路 - 改进Partition Partition在两表连接中的改进 LEEN算法 Part 1 优化思路 - 改进Partition MapReduce中的Partition: 在Map端输出时,需要对key进行分区,来决定输出数据传输到哪个reducer上进行处理。 默认的partition是通过哈希操作来决定分配到哪个reducer。 哈希Partition的局限 哈希在数据均衡的情况下,可以很好的将数据平均到各个Reducer上,但在数据倾斜情况下,会导致某几个Key的值大量集聚在单个Reducer上。 Partition 哈希实际上是一种针对键的分组均衡分配,不能保证数据量均衡分配 Reduce-side Join: Map-side Join(复制连接、半连接)对数据集要求较高,一般情况下Join操作是采用Reduce-side Join - 重分区连接:将键相同的数据分到同一个reducer,再进行Join。 优化重分区连接: 区分大小数据集,将小数据集读取到内存中,再用小数据集来遍历大数据集。 优化重分区连接的精髓就在于Reduce端

文档评论(0)

1亿VIP精品文档

相关文档