hbase性能优化方法总结.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HBase性能优化方法总结 本文主要是从 HBase 应用程序设计与开发的角度,总结几种常用的性能优 化方法。 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建 HBase 表的时候会自动创建一个 region 分区,当导入数据 的时候,所有的 HBase 客户端都向这一个 region 写数据,直到这个 region 足 够大了才进行切分。 一种可以加快批量写入速度的方法是通过预先创建一些空的 regions ,这样当数据写入 HBase 时,会按照 region 分区情况,在集群内做数 据的负载均衡。 有关预分区,详情参见: Table Creation: Pre-Creating Regions ,下面是一 个例子: [html] view plain copy 1. public static boolean createTable(HBaseAdmin admin, HTableDescriptor tabl e, byte[][] splits) 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.  throws IOException { try { admin.createTable(table, splits); return true; } catch (TableExistsException e) { (table + table.getNameAsString() + already exists); // the table already exists... return false; } } 12. 13. public static byte[][] getHexSplits(String startKey, String endKey, int numR egions) { 14. byte[][] splits = new byte[numRegions-1][]; 15. BigInteger lowestKey = new BigInteger(startKey, 16); 16. BigInteger highestKey = new BigInteger(endKey, 16); 17. BigInteger range = highestKey .subtract(lowestKey); 18. BigInteger regionIncrement = range .divide(BigInteger.valueOf(numRegion s)); 19. lowestKey = lowestKey .add(regionIncrement); 20. for(int i =0; i numRegions-1 ;i++) { 21. BigInteger key = lowestKey .add(regionIncrement.multiply(BigInteger.value Of(i))); 22. byte[] b = String .format(%016x, key).getBytes(); 23. splits[i] = b; 24. } 25. return splits; 26. } 1.2 Row Key HBase 中 row key 用来检索表中的记录,支持以下三种方式: ? 通过单个 row key 访问:即按照某个 row key 键值进行 get 操作; ? 通过 row key 的 range 进行 scan :即通过设置 startRowKey 和 endRowKey ,在 这个范围内进行扫描; 全表扫描:即直接扫描整张表中所有行记录。 在 HBase 中, row key 可以是任意字符串,最大长度 64KB ,实际应用中一般为 10~100bytes ,存为 byte[] 字节数组,一般设计成定长的。 row key 是按照字典序存储,因此,设计 row key 时,要充分利用这个排序特 点,将经常一起读取的数据存储到一块,将最近可能会被访问的数据放在一块。 举个例子:如果最近写入 HBase 表中的数据是最可能被访问的,可以考虑将时 间戳作为 row key 的一部分,由于是字典序排序,所以可以使用 Long.MAX_V ALUE – timestamp 作为 row key ,这样能保证新写入的数据在读取时可以被 快速命中。 1.3 Column Family 不要在一张表里定义太多的 column family 。目前 Hbase 并不能很好的处理超 过 2~3 个 column family 的表。因为某个 column family 在 flush 的时候, 它邻近的

文档评论(0)

XCH666 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档