用mapreduce处理Thetajoins.docxVIP

  • 27
  • 0
  • 约1.71万字
  • 约 14页
  • 2017-02-11 发布于北京
  • 举报
用mapreduce处理Thetajoins

用 mapreduce 处理 Theta-joins摘要对于许多数据分析任务来说,连接是基本的(job),但是mapreduce 范式不直接支持它们。在等值连接方面有进展,一般来说,不能充分理解mapreduce里的连接算法的实现。我们研究这个问题:任何吧任意连接条件映射到 map 和 reduce 函数,例如:一个只基于key-等值的控制数据库的并行的基本结构。我们提出的连接模型简化了 mapreduce里的连接的创建和推理。使用这个模型,我们导出一个惊人的简单的随机算法,叫做 1-bucket-theta。这个算法是用来在一个单mapreduce job实现任意的连接的(theta-joins).该算法仅仅需要最小的概率(输入基数)。我们有证据表明,对于各种各样的连接问题,它或者接近最优的,或者是最佳的可能的选择。对于 1-bucket-theta 不是最佳选择的问题,我们显示通过使用附加的输入概率如果来达到更好地性能。所有的算法被制作成‘memory-aware’,它们都不需要对mapreduce 环境做任何的修改。实验显示我们的方法的高效性。1.前沿非常大的数据集在许多学科形成一个挑战。英特网公司想分析TB级的应用日志和点击流量数据,科学家必须处理大规模实验和传感器收集的数据集(例如:大型强子碰撞型加速装置,国家虚拟天文台)零售商想找到顾客和销售数据里的模式。当处理这个分析

文档评论(0)

1亿VIP精品文档

相关文档