《尚学堂hadoop大数据培训BulkLoad 实现数据快速入库.docVIP

  • 1
  • 0
  • 约2.43万字
  • 约 18页
  • 2016-12-27 发布于北京
  • 举报

《尚学堂hadoop大数据培训BulkLoad 实现数据快速入库.doc

北京尚学堂提供 1、为何要?BulkLoad 导入?传统的?HTableOutputFormat 写 HBase 有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成一定的影响(GC时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应),而HBase支持 bulk load 的入库方式,它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接在HDFS中生成持久化的HFile数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载,在大数据量写入时能极大的提高写入效率,并降低对HBase节点的写入压力。 通过使用先生成HFile,然后再BulkLoad到Hbase的方式来替代之前直接调用HTableOutputFormat的方法有如下的好处: (1)消除了对HBase集群的插入压力 (2)提高了Job的运行速度,降低了Job的执行时间 目前此种方式仅仅适用于只有一个列族的情况,在新版 HBa

文档评论(0)

1亿VIP精品文档

相关文档