厦门大学数据库实室MapReduce连接优化ppt课件.pptVIP

厦门大学数据库实室MapReduce连接优化ppt课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据库实室MapReduce连接优化ppt课件

基于传统 MapReduce 的连接总结 总体来说,基于传统MapReduce框架的连接算法比较简单,不需要对数据进行组织。然而,该类算法可能需要多个MapReduce作业,需要传输的中间结果也较多,影响了连接操作的性能 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 厦门大学数据库实验室 MapReduce 连接优化 报告人:李雨倩 导师:林子雨 2014.07.26 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 连接技术比较 连接操作广泛应用于日志分析、联机分析处理及数据分析处理等方面。如果提高大数据连接计算速度,则可提高数据分析效率和用户体验度。下表对现有的MapReduce连接技术进行了分类与对比。 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 基于传统 MapReduce 的连接 这类算法主要通过实现map函数、reduce函数及之间的数据流传递,来完成数据连接运算。对于这方面的研究主要集中于两表等值连接、两表非等值连接(又称θ连接)、两表相似度连接、多表等值连接(星型连接、链式连接)、多表非等值连接等问题。 标准重分区算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 标准重分区算法由一个MapReduce作业来完成连接运算。两个表的数据都由 Mapper 读入,根据查询条件进行过滤intermediate,生成keyintermediate/valueintermediate对,其中 key是待连接列的数值,valueintermediate则由用于标记数据来自哪个表的标签和记录值组成。在混洗过程中,具有相同连接值的数据会被分到同一个Reducer上。Reducer根据标签将数据分为两个集合,再完成连接运算。标准重分区算法在Reducer上需要将数据全部装载到内存中,可能会造成内存溢出。另外,当存在数据倾斜时,标准重分区算法容易造成数据分布不均,以及连接速度缓慢和计算资源分布不均等问题。 改进的标准重分区算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 为了解决标准重分区算法需要占用较大内存的问题,改进的标准重分区算法进行了以下优化:生成 keyintermediate/valueintermediate对时,keyintermediate值由待连接列的数值与表的标签共同构成,这样可以使一个表的数据都排在另一个表的前面。在混洗阶段,通过自定义的partition函数来使含有同一连接值的数据仍然分到同一个Reducer上。在Reduce阶段,在内存中缓存较小的表,另一表以流式方式读入并进行连接操作。 广播算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 广播算法将待连接的两个表中较小的表以广播的方式传输到另一个表所在节点上,然后在该节点上进行连接操作。广播算法只需要一个无Reduce的MapReduce作业就可以完成,省去了数据混洗与排序的过程。当两表数据量相差很大时,广播算法具有很高的效率。然而当待连接的两个表都很大时,广播算法效率很低。 半连接算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 半连接算法使用三个 MapReduce作业来完成运算,第一个MapReduce 作业生成第一个表S的连接值文件。第二个MapReduce作业利用前一步生成的连接值文件,采用类似广播算法的方法对第二个表R的数据进行过滤。第三个MapReduce作业利用过滤后的R表数据,采用广播算法进行连接。 分片半连接算法 welcome to use these PowerPoint templates, New Content

文档评论(0)

181****7127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档