厦门大学数据库实验室-蔡珉星-Partition类和布隆过滤器.pptVIP

  • 4
  • 0
  • 约 21页
  • 2016-10-05 发布于天津
  • 举报

厦门大学数据库实验室-蔡珉星-Partition类和布隆过滤器.ppt

厦门大学数据库实验室-蔡珉星-Partition类和布隆过滤器.ppt

Partition类与布隆过滤器 报告人:蔡珉星 厦大数据库实验室 2014-08-02 遇到的问题 目录 Partitioner类 Semi-Join中的布隆过滤器 Part 1 Partition类 MapReduce中的Partition类: 在Map端输出时,需要对key进行分区,来决定输出数据传输到哪个reducer上进行处理。 在提交MapReduce作业时,可以通过指定Partition类来实现分区。 默认的partitioner是HashPartitioner,通过哈希操作来决定分配到哪个reducer。 Partition类 HashPartitioner:结果返回reducer的编号[0, 1, ... NumreducerTasks-1] Partition类 为何要 key.hashCode() Integer.MAX_VALUE: 若key为Text,其hashCode是通过Horner法则(对多项式求值的高效方法)计算得出的一个int值,若Text太大,则可能int会溢出从而得到一个负值。 所以对hashCode和MAX_VALUE(0111111111111111)与运算,保证其值为正数。 优化重分区算法:注意Map输出

文档评论(0)

1亿VIP精品文档

相关文档