Hadoop业务开发测试HBase.docxVIP

  • 2
  • 0
  • 约3.11千字
  • 约 5页
  • 2017-02-09 发布于北京
  • 举报
Hadoop业务开发测试HBase

/cpuramdisk/item/39380a13e9aef6e89813d623业务开发测试HBase之旅四:HBase MapReduce实例分析引言跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考/?p=10523 这篇文章来建立基本概念。HBase MapReduce核心类介绍首先一起来回顾下MapReduce的基本编程模型,可以看到最基本的是通过Mapper和Reducer来处理KV对,Mapper的输出经Shuffle及Sort后变为Reducer的输入。除了Mapper和Reducer外,另外两个重要的概念是InputFormat和OutputFormat,定义了Map-Reduce的输入和输出相关的东西。HBase通过对这些类的扩展(继承)来方便MapReduce任务来读写HTable中的数据。实例分析我们还是以最初的blog例子来进行示例分析,业务需求是这样:找到具有相同兴趣的人,我们简单定义为如果author之间article的tag相同,则认为两者有相同兴趣,将分析结果保存到HBase。除了上面介绍的blog表外,我们

文档评论(0)

1亿VIP精品文档

相关文档