hbase性能优化方法总结.docVIP

下载本文档

4
0
约1.35万字
约 16页
2021-11-30 发布于天津
举报
版权申诉

hbase性能优化方法总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HBase性能优化方法总结本文主要是从 HBase 应用程序设计与开发的角度，总结几种常用的性能优化方法。表的设计 1.1 Pre-Creating Regions 默认情况下，在创建 HBase 表的时候会自动创建一个 region 分区，当导入数据的时候，所有的 HBase 客户端都向这一个 region 写数据，直到这个 region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 regions ，这样当数据写入 HBase 时，会按照 region 分区情况，在集群内做数据的负载均衡。有关预分区，详情参见： Table Creation: Pre-Creating Regions ，下面是一个例子： [html] view plain copy 1. public static boolean createTable(HBaseAdmin admin, HTableDescriptor tabl e, byte[][] splits) 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. throws IOException { try { admin.createTable(table, splits); return true; } catch (TableExistsException e) { (table + table.getNameAsString() + already exists); // the table already exists... return false; } } 12. 13. public static byte[][] getHexSplits(String startKey, String endKey, int numR egions) { 14. byte[][] splits = new byte[numRegions-1][]; 15. BigInteger lowestKey = new BigInteger(startKey, 16); 16. BigInteger highestKey = new BigInteger(endKey, 16); 17. BigInteger range = highestKey .subtract(lowestKey); 18. BigInteger regionIncrement = range .divide(BigInteger.valueOf(numRegion s)); 19. lowestKey = lowestKey .add(regionIncrement); 20. for(int i =0; i numRegions-1 ;i++) { 21. BigInteger key = lowestKey .add(regionIncrement.multiply(BigInteger.value Of(i))); 22. byte[] b = String .format(%016x, key).getBytes(); 23. splits[i] = b; 24. } 25. return splits; 26. } 1.2 Row Key HBase 中 row key 用来检索表中的记录，支持以下三种方式： ? 通过单个 row key 访问：即按照某个 row key 键值进行 get 操作； ? 通过 row key 的 range 进行 scan ：即通过设置 startRowKey 和 endRowKey ，在这个范围内进行扫描；全表扫描：即直接扫描整张表中所有行记录。在 HBase 中， row key 可以是任意字符串，最大长度 64KB ，实际应用中一般为 10~100bytes ，存为 byte[] 字节数组，一般设计成定长的。 row key 是按照字典序存储，因此，设计 row key 时，要充分利用这个排序特点，将经常一起读取的数据存储到一块，将最近可能会被访问的数据放在一块。举个例子：如果最近写入 HBase 表中的数据是最可能被访问的，可以考虑将时间戳作为 row key 的一部分，由于是字典序排序，所以可以使用 Long.MAX_V ALUE – timestamp 作为 row key ，这样能保证新写入的数据在读取时可以被快速命中。 1.3 Column Family 不要在一张表里定义太多的 column family 。目前 Hbase 并不能很好的处理超过 2~3 个 column family 的表。因为某个 column family 在 flush 的时候，它邻近的