Hadoop平台简介-肖韬南京大学计算机系.pptVIP

  • 1
  • 0
  • 约1.38万字
  • 约 44页
  • 2017-07-16 发布于四川
  • 举报

Hadoop平台简介-肖韬南京大学计算机系.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Input Format map: (k1, v1) ? list(k2, v2) combine: (k2, list(v2)) ? list(k2, v2) reduce: (k2, list(v2)) ? list(k3, v3) 可以看出,如果使用combiner,那么它的输入/输出格式与reducer是完全一样的(同时也是Reducer的子类),只不过combiner的输出是intermediate key-value pairs(这将是reducer的输入)。 Input types由Input format决定,例如TextInputFormat决 定了输入的key的类型是LongWritable(首字符在文件中的偏移量),value的类型是Text(一行文本内容). 如果希望产生其他类型的输入,可以显式地调用JobConf 的方法。否则,若不显式地(set explicitly)设置,则不论是否使用combiner, intermediate types默认与最终的输出类型相同(即LongWritable与Text)。 所以,若k2和k3相同,则不需要调用setMapKeyOutputClass(),因为intermediate key

文档评论(0)

1亿VIP精品文档

相关文档