- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据库实验室MapReduce连接化
基于传统 MapReduce 的连接总结 总体来说,基于传统MapReduce框架的连接算法比较简单,不需要对数据进行组织。然而,该类算法可能需要多个MapReduce作业,需要传输的中间结果也较多,影响了连接操作的性能 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 厦门大学数据库实验室 MapReduce 连接优化 报告人:李雨倩 导师:林子雨 2014.07.26 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 连接技术比较 连接操作广泛应用于日志分析、联机分析处理及数据分析处理等方面。如果提高大数据连接计算速度,则可提高数据分析效率和用户体验度。下表对现有的MapReduce连接技术进行了分类与对比。 连接技术简介 基于传统 MapReduce 的连接 基于数据索引的连接 基于改进 MapReduce 的连接 基于传统 MapReduce 的连接 这类算法主要通过实现map函数、reduce函数及之间的数据流传递,来完成数据连接运算。对于这方面的研究主要集中于两表等值连接、两表非等值连接(又称θ连接)、两表相似度连接、多表等值连接(星型连接、链式连接)、多表非等值连接等问题。 标准重分区算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 标准重分区算法由一个MapReduce作业来完成连接运算。两个表的数据都由 Mapper 读入,根据查询条件进行过滤intermediate,生成keyintermediate/valueintermediate对,其中 key是待连接列的数值,valueintermediate则由用于标记数据来自哪个表的标签和记录值组成。在混洗过程中,具有相同连接值的数据会被分到同一个Reducer上。Reducer根据标签将数据分为两个集合,再完成连接运算。标准重分区算法在Reducer上需要将数据全部装载到内存中,可能会造成内存溢出。另外,当存在数据倾斜时,标准重分区算法容易造成数据分布不均,以及连接速度缓慢和计算资源分布不均等问题。 改进的标准重分区算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 为了解决标准重分区算法需要占用较大内存的问题,改进的标准重分区算法进行了以下优化:生成 keyintermediate/valueintermediate对时,keyintermediate值由待连接列的数值与表的标签共同构成,这样可以使一个表的数据都排在另一个表的前面。在混洗阶段,通过自定义的partition函数来使含有同一连接值的数据仍然分到同一个Reducer上。在Reduce阶段,在内存中缓存较小的表,另一表以流式方式读入并进行连接操作。 广播算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 广播算法将待连接的两个表中较小的表以广播的方式传输到另一个表所在节点上,然后在该节点上进行连接操作。广播算法只需要一个无Reduce的MapReduce作业就可以完成,省去了数据混洗与排序的过程。当两表数据量相差很大时,广播算法具有很高的效率。然而当待连接的两个表都很大时,广播算法效率很低。 半连接算法 welcome to use these PowerPoint templates, New Content design, 10 years experience 算法回顾 半连接算法使用三个 MapReduce作业来完成运算,第一个MapReduce 作业生成第一个表S的连接值文件。第二个MapReduce作业利用前一步生成的连接值文件,采用类似广播算法的方法对第二个表R的数据进行过滤。第三个MapReduce作业利用过滤后的R表数据,采用广播算法进行连接。 分片半连接算法 welcome to use these PowerPoint templates, New Content
您可能关注的文档
- 他汀不良反应评价观点与决策.ppt
- 他汀抗动脉粥样硬的靶标调脂与抗炎.ppt
- 他汀类不良反应评价观点与决策.ppt
- 他汀治疗的新进与思考.ppt
- 他汀类循证医最新进展.ppt
- 他汀类药物的副作用除了停还能作些什么.ppt
- 他汀类药物应用中的实际题.ppt
- 他汀的肾脏保作用.ppt
- 他汀类药物选择与百乐镇的临床地位.ppt
- 伟博产介绍.ppt
- 2025年大庆市科学技术协会招聘1人参考题库附答案解析.docx
- 2025青海省烟草专卖局(公司)高校毕业生招聘50人参考题库附答案解析.docx
- 2025教育部教育管理信息中心招聘18人参考题库(非事业编制)附答案解析.docx
- 2026年度浦发银行校园招聘笔试参考题库附答案.docx
- 2025年下半年库车市招聘警务辅助人员笔试题库(150人)附答案.docx
- 2025年湖南长沙浏阳农商银行公开招聘28人笔试备考题库附答案.docx
- 2025年秋季中国石油国际事业有限公司高校毕业生招聘备考题库附答案.docx
- 2025年招商银行合肥分行社会招聘笔试参考题库附答案.docx
- 2025年河北衡水银行科技员工社会招聘30人参考题库附答案解析.docx
- 2025山西忻州市人民医院和忻州市中医医院市招县用招聘工作人员10人备考题库附答案解析.docx
最近下载
- 财务管理第6章自测练习.docx VIP
- YY_T0521-2018牙科学 种植体 骨内牙种植体 动态疲劳试验.docx VIP
- DB21T 3419-2021 农业废弃物堆沤肥料生产技术规程.docx VIP
- 鼻饲法教学课件.ppt VIP
- 保洁项目内部考核管理制度.docx VIP
- 2023年湖南师范大学公共课《马克思主义基本原理概论》期末试卷B(有答案).docx VIP
- SANGFOR_GAP_V3.0安全隔离与信息交换系统_用户手册.pdf VIP
- 马克思主义基本原理(湖南师范大学)知到智慧树期末考试答案题库2024年秋湖南师范大学.docx VIP
- 2025年健康企业管理题库及答案.doc VIP
- 食品安全英文PPT.ppt VIP
原创力文档


文档评论(0)