- 4
- 0
- 约 21页
- 2016-10-05 发布于天津
- 举报
厦门大学数据库实验室-蔡珉星-Partition类和布隆过滤器.ppt
Partition类与布隆过滤器 报告人:蔡珉星 厦大数据库实验室 2014-08-02 遇到的问题 目录 Partitioner类 Semi-Join中的布隆过滤器 Part 1 Partition类 MapReduce中的Partition类: 在Map端输出时,需要对key进行分区,来决定输出数据传输到哪个reducer上进行处理。 在提交MapReduce作业时,可以通过指定Partition类来实现分区。 默认的partitioner是HashPartitioner,通过哈希操作来决定分配到哪个reducer。 Partition类 HashPartitioner:结果返回reducer的编号[0, 1, ... NumreducerTasks-1] Partition类 为何要 key.hashCode() Integer.MAX_VALUE: 若key为Text,其hashCode是通过Horner法则(对多项式求值的高效方法)计算得出的一个int值,若Text太大,则可能int会溢出从而得到一个负值。 所以对hashCode和MAX_VALUE(0111111111111111)与运算,保证其值为正数。 优化重分区算法:注意Map输出
您可能关注的文档
最近下载
- 2025年西藏检察系统聘用制书记员招聘考试真题.docx VIP
- 小学英语三年级起点五年级下册(外研社)全册完整教学设计及教案.pdf VIP
- DB32T 4112-2021建筑墙体内保温工程技术规程.docx VIP
- 2026年网络安全法律法规解读培训PPT.pptx VIP
- 畜产品加工学--干肉制品.ppt VIP
- GB 50316-2000 (2008年版) 工业金属管道设计规范.docx VIP
- 22G101与16G101钢筋平法图集对比变化汇总.docx VIP
- 《教师法》试卷及答案.docx VIP
- 2025新疆辅警笔试题库及答案题库大全.docx VIP
- 2025年山东省三支一扶考试作文真题(附答案).docx VIP
原创力文档

文档评论(0)