- 27
- 0
- 约1.71万字
- 约 14页
- 2017-02-11 发布于北京
- 举报
用mapreduce处理Thetajoins
用 mapreduce 处理 Theta-joins摘要对于许多数据分析任务来说,连接是基本的(job),但是mapreduce 范式不直接支持它们。在等值连接方面有进展,一般来说,不能充分理解mapreduce里的连接算法的实现。我们研究这个问题:任何吧任意连接条件映射到 map 和 reduce 函数,例如:一个只基于key-等值的控制数据库的并行的基本结构。我们提出的连接模型简化了 mapreduce里的连接的创建和推理。使用这个模型,我们导出一个惊人的简单的随机算法,叫做 1-bucket-theta。这个算法是用来在一个单mapreduce job实现任意的连接的(theta-joins).该算法仅仅需要最小的概率(输入基数)。我们有证据表明,对于各种各样的连接问题,它或者接近最优的,或者是最佳的可能的选择。对于 1-bucket-theta 不是最佳选择的问题,我们显示通过使用附加的输入概率如果来达到更好地性能。所有的算法被制作成‘memory-aware’,它们都不需要对mapreduce 环境做任何的修改。实验显示我们的方法的高效性。1.前沿非常大的数据集在许多学科形成一个挑战。英特网公司想分析TB级的应用日志和点击流量数据,科学家必须处理大规模实验和传感器收集的数据集(例如:大型强子碰撞型加速装置,国家虚拟天文台)零售商想找到顾客和销售数据里的模式。当处理这个分析
您可能关注的文档
- 江苏省2016健康知识赛竞84分有答案.docx
- 江苏省三级偏软2010(年秋)笔试试卷及答案解析.doc
- 江苏省东台中学2011高届三语文期中考试语文试卷.doc
- 江苏省东台市2007-0208学年高三调研考试试题(语文).doc
- 江苏省东台市2013-0214学年八年级上学期语文第一次阶段检测试题(word版含答案).doc
- 江苏省东台高级中学2011届高三第一学期期中语文试卷.doc
- 江苏省中小学信息技术等考级试(高级)知识要点.doc
- 江苏省东台市三仓中学2105届高考政治(必修三)考点解析.doc
- 江苏省中小学教师网上法制测试题分.doc
- 江苏省义务教育信息技术程课指导纲要2013年修订.doc
原创力文档

文档评论(0)