基于HBase的地理分布副本管理机制.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HBase的地理分布副本管理机制.doc

基于HBase的地理分布副本管理机制   摘要:针对分布式存储系统中数据通常在多个数据中心有冗余的副本进行备份,需要健壮的机制维护各个副本的一致性,对分布式系统的副本复制理论作了深入研究后,提出了一套管理地理分布副本的算法。微软研究院提出服务等级协议,把用户对一致性的要求分成若干级别,每个级别与用户可容忍的延迟有关。系统保证在可容忍的延迟范围内,用户能拥有较高的服务等级。Tuba系统拓展了Pileus,允许系统根据所有用户发送的统计信息动态地改变主从副本存放的位置,以提高系统的平均性能,但Tuba系统的复制只是基于单个目标单位进行。对Tuba系统中的方法作出改进,提出了一套改变主从副本存放位置的算法,并在HBase分布式系统的副本复制中实现了该机制。系统完成后,通过实验验证了在改变主从副本存放位置时综合考虑两个region的相关性可以提高系统整体的效用。   关键词:分布式系统;一致性;服务等级协议;复制;地理分布   中图分类号: TP392   文献标志码:A   0引言   随着全球数据量的不断增长以及各种应用程序的层出不穷,如何高效而又可靠地存储如此庞大的数据成为近年来人们研究的热点问题。分布式存储系统,如非关系型数据库(Not only SQL, NoSQL),被设计用来满足从社交网络到电子商务等各种不同应用的需求。一个大型的应用往往拥有多个数据中心,每个数据中心内都存在分布式存储系统。为了向用户提供高性能的服务,一份数据通常会在多个数据中心内都有拷贝。这就需要一个健壮的机制来维护不同系统间数据的一致性。根据CAP(Consistency,Availability,Partition tolerance)理论[1],一致性和可用性无法同时满足,因此需要根据实际应用的特点在一致性和可用性之间作权衡。   分布式系统间的复制有多种模式,主从复制作为最常见的一种模式,已被各种商业软件实现。对于主从复制来说,需要确定主从副本分别位于哪些数据中心里。本文主要研究基于地理位置分布的复制方法,这种方法把用户的位置信息作为权衡一致性和可用性的依据。很多应用都是直接面向全球的互联网用户,并提供多个数据中心供用户选择。理想情况下,用户会优先选择距离最近的数据中心,但最近的数据中心不一定拥有最新的数据。根据用户访问数据时的位置来确定主从副本应该位于哪些数据中心,可以有效地提高整体应用的性能。   分布式系统间的复制都是基于一定单位的,比如关系型数据库里的一张表就可以作为一个复制单位。本文使用了客户端服务等级协议,在放置主从副本位置时综合考虑不同复制单位间的相关性来使整个系统达到更好的性能,并在HBase集群间实现了这种复制方法。   1副本管理的基本机制及研究现状   副本机制是提高系统可靠性和可用性的重要方法。通过在多台机器上部署和相互协调来使所有的副本达到一致的状态,如果某些副本在提供服务的过程中出现了故障,整个系统并不会受影响,仍然可以正常提供服务。   一致性问题广泛存在于分布式文件系统、数据库、缓存等分布式系统中,分布式系统必须保证每一步操作都是由一个一致的状态进入到下一个一致的状态。一致性按照由强到弱可包含如下几类:强一致性[2]、顺序一致性、因果一致性和弱一致性[3-4]。   副本管理的研究包括很多个方面,其中状态机和事务处理是当前研究得比较多的方向。在状态机方法[2]中,来自不同客户端的请求按顺序被所有的可用副本依次执行,最终所有的副本会达到相同的状态[5-6]。基于事务的复制是一种多主副本的被动性复制方法[7]。在这种方法中,副本之间的协作通信并不要求在客户端请求之前完成,每个请求都会被特定的一个副本使用原子事务的方式执行。在事务方法中,原子广播比原子提交更有优势,比如避免了死锁的发生[8]。状态机和事务机制都有各自的优缺点,两者之间并没有绝对的优劣之分,只能根据合适的应用场景选择相对应的方法[9],选择时的度量参数可以包括工作负载的类型、多核CPU的并行性以及网络拥塞状况等。   在不同的数据中心,用户访问量会出现显著的差异。用户量大的数据中心应该具有更多数据的副本,用户量小的数据中心只需拥有某一部分数据的副本即可满足用户的需求。因此,如果系统能够根据用户的访问情况对数据的副本存放位置作出相应调整,即可有效提升系统性能,节约存储空间[10-11]。   2地理分布副本管理系统GeoHBase设计   本章对Tuba[12-13]系统作出了改进,在改变副本位置时,综合考虑多个复制单位的情况,并提出了自己的一套改变副本位置的算法。本文将该系统命名为GeoHBase。下面先介绍服务等级协议,再给出系统的整体概述,接着描述配置服务的功能。   2.1服务等级协议   用户在使用由多个

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档