- 1
- 0
- 约2.43万字
- 约 18页
- 2016-12-27 发布于北京
- 举报
北京尚学堂提供
1、为何要?BulkLoad 导入?传统的?HTableOutputFormat 写 HBase 有什么问题?
我们先看下 HBase 的写流程:
通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成一定的影响(GC时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应),而HBase支持 bulk load 的入库方式,它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接在HDFS中生成持久化的HFile数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载,在大数据量写入时能极大的提高写入效率,并降低对HBase节点的写入压力。通过使用先生成HFile,然后再BulkLoad到Hbase的方式来替代之前直接调用HTableOutputFormat的方法有如下的好处:(1)消除了对HBase集群的插入压力(2)提高了Job的运行速度,降低了Job的执行时间目前此种方式仅仅适用于只有一个列族的情况,在新版 HBa
您可能关注的文档
最近下载
- 苏童及其作品.ppt VIP
- 2025年连云港市中考语文试卷(含标准答案及解析).docx
- 普通高中语文课程标准日常修订版(2017年版2025年修订).pdf VIP
- 一种无基坑不断轨转向架计量结构的轨道衡.pdf VIP
- 现当代文学 苏童《妻妾成群》共16页文档.ppt VIP
- MT-T_392-2011_煤矿用钻杆圆锥螺纹体型式和基本尺寸(非正式版).pdf VIP
- 2026年北京初二体育笔试题库及答案.docx VIP
- 中考核心词汇1600个(按词性分类,含高频考点标注).docx VIP
- 基于DYNAFORM的汽车顶盖模具设计.doc VIP
- 中小学生科学素养大赛试题题库(附答案).pdf
原创力文档

文档评论(0)