用mapreduce处理Thetajoins.docxVIP

下载本文档

27
0
约1.71万字
约 14页
2017-02-11 发布于北京
举报

用mapreduce处理Thetajoins.docx

用mapreduce处理Thetajoins

用 mapreduce 处理 Theta-joins摘要对于许多数据分析任务来说，连接是基本的（job）,但是mapreduce 范式不直接支持它们。在等值连接方面有进展，一般来说，不能充分理解mapreduce里的连接算法的实现。我们研究这个问题：任何吧任意连接条件映射到 map 和 reduce 函数，例如：一个只基于key-等值的控制数据库的并行的基本结构。我们提出的连接模型简化了 mapreduce里的连接的创建和推理。使用这个模型，我们导出一个惊人的简单的随机算法，叫做 1-bucket-theta。这个算法是用来在一个单mapreduce job实现任意的连接的（theta-joins）.该算法仅仅需要最小的概率（输入基数）。我们有证据表明，对于各种各样的连接问题，它或者接近最优的，或者是最佳的可能的选择。对于 1-bucket-theta 不是最佳选择的问题，我们显示通过使用附加的输入概率如果来达到更好地性能。所有的算法被制作成‘memory-aware’，它们都不需要对mapreduce 环境做任何的修改。实验显示我们的方法的高效性。1.前沿非常大的数据集在许多学科形成一个挑战。英特网公司想分析TB级的应用日志和点击流量数据，科学家必须处理大规模实验和传感器收集的数据集（例如：大型强子碰撞型加速装置，国家虚拟天文台）零售商想找到顾客和销售数据里的模式。当处理这个分析

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

用mapreduce处理Thetajoins.docxVIP