- 11
- 0
- 约3.76千字
- 约 22页
- 2017-12-09 发布于重庆
- 举报
基于MapReduce
基于MapReduce的大数据连接算法 中国科学技术大学 张常淳博士 2014.4 C1 背景知识 连接操作 两个数据集R(A,B)和S(B,C)。数据集R具有属性A和B,数据集S具有属性B和C 。连接操作表示为 其中连接条件为R.B=S.B。SQL语句表示为 C1 背景知识 基于MapReduce的直方图高效建立算法 直方图可以很好地对一个数据集内的数据分布进行评估。 例如: 三表连接 ,首先通过直方图对三个表的属性进行估计,得到R1,R2连接属性B的连接选择率很小,依偎着先做R1,R2的连接,得到一个很小的中间结果temp(A,B,C),然后再与R3进行连接得到结果。 如果先做R2,R3的连接,则中间结果集的元祖数量较多,导致与R1进行连接时执行时间长。 C1 背景知识 MapReduce技术 将数据处理任务抽象成map任务和reduce任务。在map阶段完成数据过滤处理,在reduce阶段完成对数据的聚集处理。原始数据用键值(k1,v1)表示,通过map函数转换成另一种键值(k2,v2),map函数通过分区函数把数据传输到reduce端,具有相同k2的一系列记录
您可能关注的文档
- 否定和肯定的翻译转换.ppt
- 各种时态总结练习及答案.ppt
- 吴都古嗣商业街策划提案0.ppt
- 可爱的家乡主题班会.ppt
- 员工入职解除及绩效考核的有效运用.ppt
- 员工参与管理的要素.ppt
- 合理用药循证医学.ppt
- 员工激励课程心态激励观念公司早会晨会.ppt
- 员工离职与劳动争议蔡跃.pptx
- 合规经营 廉政教育.ppt
- 2025-2026学年人教版七年级数学下册 第七章 相交线与平行线 单元测试卷(含答案).pdf
- 2026年人教PEP版四年级英语下册Unit3 Time for School教案(单元整体教学设计).pdf
- 初中人教版八年级道德与法治下册全册知识点(2026).pdf
- 探源点3 三角形中的“特征”线.pdf
- 提优点6 奔驰定理与三角形四心.pdf
- 直角三角形 第1课时 直角三角形的性质与判定 同步练习(含解析).pdf
- 2026届福建省各地高考语文一模试卷含解析.doc
- 云南省屏边县民族中学2026届高三下学期第六次检测化学试卷含解析.doc
- 2026届河北省沧州市六校联盟高三第三次模拟考试历史试卷含解析.doc
- 陕西西安地区八校2026届高三最后一模英语试题含答案.doc
最近下载
- 反恐怖防范安全风险评估工作指南(试行).docx
- 胆道损伤医学课件.pptx VIP
- 探寻杭州曲艺“小热昏”:历史、艺术与传承发展的多维审视.docx
- 《国库集中收付代理银行资格认定管理办法》解读与指南课件.pptx VIP
- WPS焊接工艺的指导书.docx VIP
- 2002年普通高等学校招生全国统一考试(全国卷)理科综合能力测试.doc
- 【厦门航空ME】2-12-1 放电刷的检查及更换.pptx VIP
- 高中数学课标培训之基于核心素养的数学课堂教学——情境设计与问题引领(教研员培训课件).pptx
- 60系列伺服电机.pdf VIP
- 2025年城镇老旧小区改造配套基础设施建设项目监理大纲 (5).docx
原创力文档

文档评论(0)