基于MapReduce.pptVIP

  • 11
  • 0
  • 约3.76千字
  • 约 22页
  • 2017-12-09 发布于重庆
  • 举报
基于MapReduce

基于MapReduce的大数据连接算法 中国科学技术大学 张常淳博士 2014.4 C1 背景知识 连接操作 两个数据集R(A,B)和S(B,C)。数据集R具有属性A和B,数据集S具有属性B和C 。连接操作表示为 其中连接条件为R.B=S.B。SQL语句表示为 C1 背景知识 基于MapReduce的直方图高效建立算法 直方图可以很好地对一个数据集内的数据分布进行评估。 例如: 三表连接 ,首先通过直方图对三个表的属性进行估计,得到R1,R2连接属性B的连接选择率很小,依偎着先做R1,R2的连接,得到一个很小的中间结果temp(A,B,C),然后再与R3进行连接得到结果。 如果先做R2,R3的连接,则中间结果集的元祖数量较多,导致与R1进行连接时执行时间长。 C1 背景知识 MapReduce技术 将数据处理任务抽象成map任务和reduce任务。在map阶段完成数据过滤处理,在reduce阶段完成对数据的聚集处理。原始数据用键值(k1,v1)表示,通过map函数转换成另一种键值(k2,v2),map函数通过分区函数把数据传输到reduce端,具有相同k2的一系列记录

文档评论(0)

1亿VIP精品文档

相关文档