- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HBase性能优化方法总结
本文主要是从 HBase 应用程序设计与开发的角度,总结几种常用的性能优
化方法。
表的设计
1.1 Pre-Creating Regions
默认情况下,在创建 HBase 表的时候会自动创建一个 region 分区,当导入数据
的时候,所有的 HBase 客户端都向这一个 region 写数据,直到这个 region 足
够大了才进行切分。 一种可以加快批量写入速度的方法是通过预先创建一些空的
regions ,这样当数据写入 HBase 时,会按照 region 分区情况,在集群内做数
据的负载均衡。
有关预分区,详情参见: Table Creation: Pre-Creating Regions ,下面是一
个例子:
[html] view plain copy
1. public static boolean createTable(HBaseAdmin admin, HTableDescriptor tabl e, byte[][] splits)
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
throws IOException {
try {
admin.createTable(table, splits);
return true;
} catch (TableExistsException e) {
(table + table.getNameAsString() + already exists); // the table already exists...
return false;
}
}
12.
13.
public static byte[][] getHexSplits(String startKey, String endKey, int numR
egions) {
14.
byte[][]
splits
=
new byte[numRegions-1][];
15.
BigInteger
lowestKey
=
new BigInteger(startKey, 16);
16.
BigInteger
highestKey
=
new BigInteger(endKey, 16);
17.
BigInteger
range
=
highestKey
.subtract(lowestKey);
18.
BigInteger
regionIncrement
=
range .divide(BigInteger.valueOf(numRegion
s));
19.
lowestKey
= lowestKey
.add(regionIncrement);
20.
for(int
i =0; i
numRegions-1
;i++) {
21.
BigInteger
key
=
lowestKey
.add(regionIncrement.multiply(BigInteger.value
Of(i)));
22.
byte[]
b =
String
.format(%016x, key).getBytes();
23.
splits[i] = b;
24.
}
25.
return splits;
26.
}
1.2 Row Key
HBase 中 row key 用来检索表中的记录,支持以下三种方式:
? 通过单个 row key 访问:即按照某个 row key 键值进行 get 操作;
? 通过 row key 的 range 进行 scan :即通过设置 startRowKey 和 endRowKey ,在
这个范围内进行扫描;
全表扫描:即直接扫描整张表中所有行记录。
在 HBase 中, row key 可以是任意字符串,最大长度 64KB ,实际应用中一般为 10~100bytes ,存为 byte[] 字节数组,一般设计成定长的。
row key 是按照字典序存储,因此,设计 row key 时,要充分利用这个排序特
点,将经常一起读取的数据存储到一块,将最近可能会被访问的数据放在一块。
举个例子:如果最近写入 HBase 表中的数据是最可能被访问的,可以考虑将时
间戳作为 row key 的一部分,由于是字典序排序,所以可以使用 Long.MAX_V
ALUE – timestamp 作为 row key ,这样能保证新写入的数据在读取时可以被
快速命中。
1.3 Column Family
不要在一张表里定义太多的 column family 。目前 Hbase 并不能很好的处理超
过 2~3 个 column family 的表。因为某个 column family 在 flush 的时候,
它邻近的
您可能关注的文档
最近下载
- 《结构化学》全套教学课件.pptx
- 臭气浓度分析记录2022新方法.docx VIP
- 发动机冷却剂模拟腐蚀试验的标准试验方法-ASTM-D2570-16-(中文翻译版).docx VIP
- 档案保管方案.docx VIP
- 人教版(2019)高中英语选择性必修第二册期末综合检测试卷(含答案).pdf VIP
- 《劝学》挖空训练教师版语文试题及答案 统编版高三总复习.pdf VIP
- 银行理财业务管理办法.pdf VIP
- 河南省郑州市第一中学2025-2026学年高三上学期期中语文试卷(含答案).docx
- 发动机冷却剂模拟腐蚀试验的标准试验方法ASTMD2570-16(中文翻译版).pptx VIP
- 消防通信员手册.pptx VIP
原创力文档


文档评论(0)