基于HBase健康大数据平台性能优化及应用.docVIP

下载本文档

30
0
约7.04千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于HBase健康大数据平台性能优化及应用.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HBase健康大数据平台性能优化及应用

基于HBase健康大数据平台性能优化及应用　　摘要：健康大数据已被纳入国家大数据战略布局，如何能够收集有效的健康数据，构建高性能、高可靠性、低成本和具有良好可扩展性的健康大数据平台至关重要。传统的单纯利用Hadoop、HBase无法满足复杂的业务需求和实时查询的要求，同时性能方面也存在一些问题。分析了HBase的底层原理，对HBase的读写性能进行优化。借助Phoenix提供的SQL接口来操控HBase，可方便对集群和数据进行管理。Phoenix针对HBase也提出了一系列优化方案。利用HBase和Phoenix的特性构建高性能的健康大数据平台。实验结果表明，优化后的健康大数据系统具有更好的读写性能，能够更好地满足大数据发展需求。　　关键词：健康大数据；HBase；分布式数据库；负载预测　　DOIDOI：10.11907/rjdk.171146 　　中图分类号：TP319文献标识码：文章编号2017）010014604 　　0引言　　通过移动互联网、智能设备和物联网技术，人们能够随时追踪记录自己当前的生理健康指标、运动状况、饮食情况和其它生活习惯，这些数据的收集能够帮助挖掘出更有价值的医疗信息。然而，技术的发展仍无法跟上数据增长的速度。对于大规模数据的存储、管理和实时查询仍然面临很多问题，同时健康监测数据也缺乏统一标准，使大量数据无法共享利用，这无疑会影响健康监测大数据的发展进程。　　本文对健康监测数据的存储与管理进行研究，根据健康监测数据的数据表示模型和数据形态，采用HBase大数据平台研究健康监测数据的存储与组?形式，实现了健康大数据的存储和管理，并提供高并发的读写性能与可扩展性。　　HBase是参照Google Bigtable实现的NoSQL数据库，有着天然的大数据存储优势[1]。它具有强一致性、随机读写、面向列，以及可动态修改、可水平伸缩的特性[2]。HBase支持范围查询以及行事务，可在廉价PC Server上搭建大规模的结构化存储集群。HBase非常适合于构建高性能的健康大数据平台。然而，HBase还处在高速发展时期，仍有一些问题需要解决。Apache的Phoenix为人们操作HBase提供了更加便捷的沟通方式，其提供了标准的SQL和JDBC API的力量与完整的ACID事务的能力和后期绑定的灵活性。目前，关于HBase性能的优化和研究还存在着诸多现实问题，缺乏关键技术支持。本文重点研究了基于健康数据存储的HBase集群的性能优化与应用，并采用HBase1.0.2版本、phoenix4.8版本进行分析实验，旨在提供一个高性能、高可用的健康大数据存储和管理平台。　　1健康大数据平台分析与优化　　1.1健康数据模型设计　　中华人民共和国国家卫生和计划生育委员会于2011年8月发布了《城乡居民健康档案基本数据集》，规定了城乡居民健康档案基本数据集的元数据属性和数据元目录。通过研究与分析该数据集，构建了统一的健康档案存储模型，并转化成HBase的数据模型，进行数据库的设计与实现。　　选取《高血压患者随访数据元专用属性》作为案例进行研究分析。表1是分析得到的高血压关系模型。其中行键采用身份证号码、医院编号、医疗项目和时间戳的组合键。　　其中，NumRegionServer可以采用集群中的RegionServer数目，有利于分担数据读写压力，但也不宜过多，否则会造成集群性能下降。　　1.3HBase数据查询优化　　HBase在0.92之后引入了协处理器（Coprocessors），能够更好地建立二级索引、复杂过滤器、访问控制等更为复杂的操作[5]。Phoenix则在此基础上提供了更加方便的操作。Phoenix能够用SQL的方式建立二级索引。Phoenix支持4种类型的索引技术：Covered Indexes、Functional Indexes、Global Indexing和Local Indexing，这些索引技术分别适用于不同的业务场景，主要是偏重于读或写。　　可以通过如下方式直接为HBase创建索引：　　CREATE INDEX BLOOD_PRESSURE_INDEX ON BLOOD_PRESSURE （detail.id_number） INCLUDE（detail.user_name，detail.follow_date）　　创建了一个名为BLOOD_PRESSURE_INDEX的索引，查询id_number、user_name、follow_date字段可加快查询速度，同时也可根据这些字段查询所需的rowkey。如果查询字段中包含了不在索引的字段且不是rowkey，索引则不会被触发到，查询仍会进行全表扫描。　　1.