基于HBase健康大数据平台性能优化及应用.docVIP

基于HBase健康大数据平台性能优化及应用.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HBase健康大数据平台性能优化及应用

基于HBase健康大数据平台性能优化及应用   摘要:健康大数据已被纳入国家大数据战略布局,如何能够收集有效的健康数据,构建高性能、高可靠性、低成本和具有良好可扩展性的健康大数据平台至关重要。传统的单纯利用Hadoop、HBase无法满足复杂的业务需求和实时查询的要求,同时性能方面也存在一些问题。分析了HBase的底层原理,对HBase的读写性能进行优化。借助Phoenix提供的SQL接口来操控HBase,可方便对集群和数据进行管理。Phoenix针对HBase也提出了一系列优化方案。利用HBase和Phoenix的特性构建高性能的健康大数据平台。实验结果表明,优化后的健康大数据系统具有更好的读写性能,能够更好地满足大数据发展需求。   关键词:健康大数据;HBase;分布式数据库;负载预测   DOIDOI:10.11907/rjdk.171146   中图分类号:TP319文献标识码:文章编号2017)010014604   0引言   通过移动互联网、智能设备和物联网技术,人们能够随时追踪记录自己当前的生理健康指标、运动状况、饮食情况和其它生活习惯,这些数据的收集能够帮助挖掘出更有价值的医疗信息。然而,技术的发展仍无法跟上数据增长的速度。对于大规模数据的存储、管理和实时查询仍然面临很多问题,同时健康监测数据也缺乏统一标准,使大量数据无法共享利用,这无疑会影响健康监测大数据的发展进程。   本文对健康监测数据的存储与管理进行研究,根据健康监测数据的数据表示模型和数据形态,采用HBase大数据平台研究健康监测数据的存储与组?形式,实现了健康大数据的存储和管理,并提供高并发的读写性能与可扩展性。   HBase是参照Google Bigtable实现的NoSQL数据库,有着天然的大数据存储优势[1]。它具有强一致性、随机读写、面向列,以及可动态修改、可水平伸缩的特性[2]。HBase支持范围查询以及行事务,可在廉价PC Server上搭建大规模的结构化存储集群。HBase非常适合于构建高性能的健康大数据平台。然而,HBase还处在高速发展时期,仍有一些问题需要解决。Apache的Phoenix为人们操作HBase提供了更加便捷的沟通方式,其提供了标准的SQL和JDBC API的力量与完整的ACID事务的能力和后期绑定的灵活性。目前,关于HBase性能的优化和研究还存在着诸多现实问题,缺乏关键技术支持。本文重点研究了基于健康数据存储的HBase集群的性能优化与应用,并采用HBase1.0.2版本、phoenix4.8版本进行分析实验,旨在提供一个高性能、高可用的健康大数据存储和管理平台。   1健康大数据平台分析与优化   1.1健康数据模型设计   中华人民共和国国家卫生和计划生育委员会于2011年8月发布了《城乡居民健康档案基本数据集》,规定了城乡居民健康档案基本数据集的元数据属性和数据元目录。通过研究与分析该数据集,构建了统一的健康档案存储模型,并转化成HBase的数据模型,进行数据库的设计与实现。   选取《高血压患者随访数据元专用属性》作为案例进行研究分析。表1是分析得到的高血压关系模型。其中行键采用身份证号码、医院编号、医疗项目和时间戳的组合键。   其中,NumRegionServer可以采用集群中的RegionServer数目,有利于分担数据读写压力,但也不宜过多,否则会造成集群性能下降。   1.3HBase数据查询优化   HBase在0.92之后引入了协处理器(Coprocessors),能够更好地建立二级索引、复杂过滤器、访问控制等更为复杂的操作[5]。Phoenix则在此基础上提供了更加方便的操作。Phoenix能够用SQL的方式建立二级索引。Phoenix支持4种类型的索引技术:Covered Indexes、Functional Indexes、Global Indexing和Local Indexing,这些索引技术分别适用于不同的业务场景,主要是偏重于读或写。   可以通过如下方式直接为HBase创建索引:   CREATE INDEX BLOOD_PRESSURE_INDEX ON BLOOD_PRESSURE (detail.id_number) INCLUDE(detail.user_name,detail.follow_date)   创建了一个名为BLOOD_PRESSURE_INDEX的索引,查询id_number、user_name、follow_date字段可加快查询速度,同时也可根据这些字段查询所需的rowkey。如果查询字段中包含了不在索引的字段且不是rowkey,索引则不会被触发到,查询仍会进行全表扫描。   1.

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档