分布式数据的弱一致性维护策略的分析-analysis of weak consistency maintenance strategy for distributed data.docxVIP

下载本文档

4
0
约3.93万字
约 53页
2018-05-29 发布于上海
举报
版权申诉

分布式数据的弱一致性维护策略的分析-analysis of weak consistency maintenance strategy for distributed data.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式数据的弱一致性维护策略的分析-analysis of weak consistency maintenance strategy for distributed data

1绪论1.1课题的研究背景最初的分布式文件系统应用发生在20世纪七十年代，经过了20多年的发展，分布式文件系统在体系结构、系统规模、性能、可扩展性、可用性等方面都经历了巨大的变化[1]。近些年来，面对广域网和大容量存储应用的需求，各种应用对于存储系统提出了更多的需求。由于现在的数据量比曾经任何时期的更多，并且创建速度更快，虽然百万级别的文件数据已经可以被主流分布式文件系统轻松高效管理，但随着数据敏感的科学计算以及云计算的逐渐升温，数据规模急剧地膨胀，因此为分布式存储带来了巨大的挑战[2]；同时，为了提供更加优质的存储服务，应用要求分布式文件系统可以提高数据的访问效率，保障更高的带宽，在保证数据可用性的同时兼顾服务的高可用性，在应用不断地变化时，系统可以做出相应的调整，这要求系统能够提供良好的可扩展性，在容量、性能、管理等方面都能够适应应用的变化[3]。复制是大规模数据管理中的一个关键技术[4]，通过对于数据的复制可以提高系统的可用性，减少访问延迟，实现负载均衡提高访问效率[5]。由于系统中对于一个数据对象有多个副本的存在，即使出现系统节点失效的现象，用户仍然可以通过访问其他副本获得数据，从而提高了系统的可用性[6]。另外，用户可以通过从近节点获取数据来避免访问远程网络或者从负载高的节点获取数据，从而降低了访问的延迟，均衡系统负载，提高了访问效率。数据对象复制需要考虑副本数目，副本分布，复制粒度和数据更新带来的数据一致性等问题[7]。分布式的环境中，用户可能访问到数据的任意一个副本，并且可以在该副本节点上进行更新操作，由于数据复制的要求是数据复制透明和数据一致性，所以必须保证用户的更新必须应用于该数据的所有副本[8]。所以对于分布式文件系统来说，数据的一致性研究也成为了研究重点，如何降低维护数据一致性所牺牲的计算开销，存储空间以及通讯开销则成为一致性研究的研究方向[9]。分布式存储具有节点众多，节点资源异构等特点，这就导致系统在组织和管理将面临巨大的挑战，同时数据对象可能达到GB甚至是TB的规模[10]，这也对数据的一致性维护带来了新的挑战。此外，伴随着科技的进步，高能物理，天文学，生物工程等数据敏感的领域的发展[11]，实验分析和模拟需要共享海量数据集，数据规模也会以远高于线性增长速度不断膨胀，分布规模必然随之扩大，系统中的副本数量相对而言将不断地增加，庞大的副本数量将会给分布式数据管理和数据的一致性带来更高的复杂性。1.2课题的研究目的和意义随着网络技术的飞速发展以及数据敏感的科学领域的不断进步，Internet上的数据呈现出指数增长的趋势，大型研究机构进行的实验在一天所产生的数据已经达到TB级别，并且一些跨国的研究机构数据节点相对分散，也就是说不但数据海量，同时广域分布。为了满足数据密集型应用的需求，分布式存储系统面临着海量数据，海量副本，大型数据对象管理的挑战。为了提高系统的响应速度，面对每秒来自于广域分布用户的请求，系统必须为每个数据对象创建多个副本，来降低响应时间。但副本增加的结果将会导致众多问题，如果处理不当则会增加更新传播延迟，副本的负载可能会不均衡，更新冲突增加，更新应用变得复杂。所以必须将大量的副本进行有效地组织来提高系统的可用性，可扩展性。大型的数据对象在更新传播时，首先要确定更新传播内容，因为数据对象本身占据了大量的空间，所以将数据对象作为一个整体在更新中传播显然会占用大量的网络资源，也会降低传输效率，增加传播延时。所以应用更新日志进行传播则是比较好的选择，更新日志本身的数据大小基本一致，网络负载主要与更新频率相关，而不是更新日志本身的大小。这样一来，在更新频率较高的应用中，需要制定合理高效的更新日志维护方法来提高整个系统的可用性。这是由于更新日志并非数据对象，它属于额外的一种数据，如果更新频率高，则会占用大量的系统空间，降低系统的空间利用率，大大提高了系统的成本。分布式文件系统的节点众多，数据分布相对分散，这对于系统的负载均衡比较有利，但是也增加了数据维护和组织的难度。在分布式环境中，某个节点删除和节点的添加非常频繁，已经被看作是正常的现象，也就是系统的动态性非常强。在系统更新传播的过程中，节点通常要相互通信以实现更新的传播，节点失效有可能会导致更新传播不能按预期的路径或方式进行下去，这会影响更新传播的速度和更新提交的速度。分布式系统如何适应这种节点的动态性，针对于节点的变化进行容错和自适应是我们面临的挑战之一。1.3国内外研究概况数据的一致性分为强一致性和弱一致性两种一致性模型[12]，其中弱一致性也称为优化一致性和最终一致性。强一致性模型指的是对于数据的更新必须同时的应用到其所有的副本上去，即数据所有的副本在任意时刻都达到数据一致状态[13]。弱一致性对于数据并不执行同步的更新，对于数据的更新时异步