数据流信息从MySQL到HBase迁移策略研究.docVIP

下载本文档

3
0
约6.32千字
约 13页
2018-09-10 发布于福建
举报
版权申诉

数据流信息从MySQL到HBase迁移策略研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据流信息从MySQL到HBase迁移策略研究

数据流信息从MySQL到HBase迁移策略研究　　摘要：数据流信息在网络管理、网络安全和网络分析等方面具有十分重要的作用，然而，随着互联网的不断发展，网络中数据量极速增长，数据流信息变得越来越难以存储。结合数据流信息的本身特点和HBase数据库的优点，本文研究和实现了数据流信息从MySQL到HBase的迁移策略，完成数据库表和索引的转换设计，设计特有主键以支持多条件查询，并通过Hadoop实现HBase数据库表数据的分布式存储。测试结果表明将数据流信息存储在HB ase中具有更高的稳定性、扩展性，并能够满足多条件查询需求。　　关键词：MySQL；HBase；数据流；迁移；索引　　中图分类号：TP392 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2015.11.001 　　0 引言　　数据流产生于动态的网络环境中，相比较传统的数据集，这些数据具有快速性、连续性、变化性、无限性等特点，这使数据流信息的存储管理面临着新的要求和挑战。　　众所周知关系数据库非常善于处理事务的更新操作，尤其是处理更新过程中复杂一致性的问题，并可以进行Join等复杂条件查询，为此，关系数据库在企业市场一度占据长期稳固的统治地位。但是，关系数据库在一些操作上过大的开销严重影响了数据存储管理的效率，尤其是关系数据库不擅长处理一些海量数据存储管理方面的操作：　　首先，关系数据库扩展能力有限，无法大规模扩展，即使网络解决方案在一定程度上改善了这个问题，但还是无法有效的动态添加新节点，创建新的集群，随着大数据时代的到来，关系数据库也就逐渐不能满足海量数据的存储管理需求。其次，关系数据库不善于处理非结构化数据。互联网的快速发展，尤其是移动互联网的发展，移动终端的多样化使用，今天的数据已不再是传统的结构化数据，而是通过设备、服务器、应用自动产生的非结构化或半结构化数据，这为数据的存储管理提出了新的挑战。最后，关系数据库比较难以处理存储字段不固定的情况，不能有效的为数据库表添加新字段。　　一些社交网络和大数据公司，例如Facebook、谷歌等，首先意识到在现如今的海量数据和多样化数据类型的环境下，关系数据库不再是最佳的选择。因此，NoSQL数据库，例如MongoDB、Cassandra、HBase等，就应运而生了。这类数据库的主要功能之一就是帮助用户动态的、简便地扩展数据存储服务器的数量。如何把关系数据库中的数据迁移到NoSQL数据库中并且设计合理的表格式来符合海量数据的存储管理需求已成为开发者所关注的问题。　　HBase是目前最受欢迎的开源NoSQL数据库之一，分布式，可伸缩，基于列的数据存储特点使其在大数据领域的应用越来越广泛。开发人员可以在不了解HBase的底层存储模式的情况下通过一些数据仓库工具，如Hive，来操作HBase中的数据。另外，HBase还提供了大量的编程接口，可供HadoopMapReduce Job并行批处理HBase表数据。但是，HBase和其他NoSQL数据库一样，都有其适用范围，在复杂条件查询的情况下，HBase的查询效率并不高。　　本文将以数据流信息从MySQL到HBase的迁移为例，研究和探讨HBase数据库表和索引的转换设计，在满足复杂条件查询需求的基础上，提高数据流信息的存储管理效率。　　1 研究背景　　1.1 HBase介绍　　HBase是完全不同于关系数据库的新型NoSQL数据库，类似于Google的BigTable，是一个稀疏长期存储的、面向列的、排序的映射。从逻辑视图来看，HBase是一个具有映射关系的很大的表，可以有数百万列和数十亿行，由于HBase是稀疏存储数据的，所以某些列可以是空的，表1是一个HBase表逻辑视图的示例。　　1） RowKey： RowKey是表的行键也是表的唯一索引，在HBase中通过RowKey访问行有三种方式：通过单个RowKey访问；通过给定RowKey范围访问；全表扫描。RowKey可以是任意字符串（最大长度64KB）并按字典序进行存储，所以在用HBase存储数据时.要对RowKey进行精心设计，使经常一起读写的行能够一起存储。　　2）列族：列族是一些列的集合，一个列族所有列成员是有着相同的前缀，比如，列Info：sip和Info： dip都是列族Info的成员，冒号（：）是列族的分隔符，用来区分前缀和列名。column前缀必须是可打印的字符，剩下的部分（称为qualify），可以由任意字节数组组成。族必须在表建立的时候声明，而列可以随时新建。在物理上，一个列族成员在文件系统上都是存储在一起的，并以相同的方式访问。　　3）时间戳：在HBase中数据可能有多个版本，每个版本之间用时间戳来