- 1、本文档共112页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式系统中回卷恢复技术研究 计算机科学与技术专业论文
分布式系统中回卷恢复技术研究
重庆大学博士学位论文
学生姓名:刘国良 指导教师:陈蜀宇 教 授
专 业:计算机科学与技术 学科门类:工 学
重庆大学计算机学院
二 O 一二年十月
Research on Rollback Recovery Technology in Distributed Systems
A Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the
Doctor’s Degree of Engineering
By
Liu GuoLiang
Supervised by Prof. Chen Shuyu
Specialty: Computer Science and Technology
College of Computer Science of Chongqing University, Chongqing, China October 2012
中文
中文摘要
重庆
重庆大学博士学位论文
I
I
PAGE
PAGE VI
摘 要
分布式系统具有用户投资风险小、结构可扩展性好、用户可继承原有的软硬件 资源、构造简单等特点,其应用领域越来越广泛。包括大规模科学计算系统、天 气预报系统、分时电话系统、飞机订票系统、银行系统、股票系统、购物系统等。 随着系统规模的不断扩大,其在计算过程中发生故障的几率也在指数增长,系统 一旦失效,可能带来灾难性的后果,因此迫切需要为分布式计算系统提供容错机 制。检查点与回卷恢复(Checkpoint and Rollback-Recovery)技术是一类重要的软件 容错技术,具有实现和使用简单,对资源要求低等特点,适合在分布式计算环境 中应用。
分布式计算环境中,不确定的通信带宽、存储空间限制、节点的动态性、频繁 的断开连接等特点决定了为单机系统开发的回卷恢复技术不能直接地应用到分布 式计算系统中。在保证系统一致性的前提下,减少检查点和消息日志的存储开销、 减少回卷恢复机制引入的通信开销、提高节点的自治性(autonomy)、减少由于进程 间依赖关系造成的节点间藕合、实现回卷恢复机制对节点的透明,是分布式环境 下回卷恢复技术研究的核心问题。本文围绕以上内容展开研究,主要创新点如下。
(1)提出了一种分布式环境下非阻塞协调检查点及回卷恢复算法。在分布式 计算环境的实际应用中,节点的自治性很强,希望的容错机制是一种透明的服务。 提出的检查点算法基于发送进程来确保不会产生孤儿消息,不需要接收进程的任 何信息,算法每次获得的检查点均是全局一致检查点,直接获得永久检查点,跳 过临时检查点阶段,加快了检查点的形成时间,一个进程是否获得检查点与其他 进程无关,算法是否获得检查点只与发送标志有关,确保了算法的高并行性。某 节点失效后,只需要通过进程广播一条同步消息,其他进程收到同步消息后,根 据算法做独立处理,不需要其他进程的额外消息,从而实现了节点间透明、并行 地执行回卷恢复算法。通过算法性能分析和仿真实验,验证了算法无故障运行和 回卷恢复阶段的低开销性。
(2)提出了一种基于动态分组的两级检查点及回卷恢复容错算法。就包含多 个结点的应用而言,结点间交换信息的频率是不一样的,甚至相差很大,因此需 要一种机制来适应分布式系统中进程动态协作的特点。提出的算法根据结点间通 信的频率、通信时延、通信带宽及分组中结点数等指标来实现动态分组,实现分 组的高内聚低耦合。组内通信时延小、结点数不多,适合协调检查点算法,因此 在组级采用协调检查点算法。组间通常是由高时延、低带宽的网络相互连接,并 且组间的通信频率较低,提出的系统级检查点算法充分考虑了这些特点,每个分
组是否获得检查点,与其他分组无关,各个分组可以独立地,以并行方式获得系
统级检查点;通过发送分组来确保分组间不会产生孤儿消息,每次获得的系统级 检查点均是全局一致检查点,避免了多米诺效应的发生。算法一方面动态适应了 应用自身的要求,提高了资源的整体效能,另一方面通过发送分组来确保分组间 不会产生孤儿消息,实现了由传统的两阶段提交算法到单阶段算法的转变。实验 结果表明,算法执行时间较低,相对于传统的两阶段提交算法,时间复杂度由通 常的 O(n2)降低到 O(n)。
(3)基于 XMPP 协议构建一个通用的消息传递机制。已有检查点及回卷恢复
算法,都是自定义算法,消息传递方式各不相同,没有通用性可言。我们根据分 布式系统的特点及检查点算法传递的消息特点,构建一个通用的消息传递机制, 该机制基于 XMPP 协议,实现了消息的跨平台、准实时传输。对 XMPP 协议中 XML 标签进行扩展,实现了多种检查点消息传输格式的统一,提
您可能关注的文档
- 典型类型的第三人精神损害赔偿分析-民商法学专业论文.docx
- 典型管路系统抗冲击性能仿真评估分析-船舶与海洋结构物设计与制造专业论文.docx
- 典型管路系统抗冲击性能仿真评估研究-船舶与海洋结构物设计与制造专业论文.docx
- 典型管路系统抗冲击性能分析方法新型抗冲击元器件设计分析-船舶与海洋结构物设计制造专业论文.docx
- 典型红壤丘陵区地地利用变化对土壤CO2和CH4通量的影响研究-环境工程专业论文.docx
- 典型纳米功能材料在环境污染控制领域的应用研究-环境科学专业论文.docx
- 典型自动铺放系统的机构改进及CAM技术研究-材料加工工程专业论文.docx
- 典型结构薄壁铝合金铸件的工艺设计和优化-材料学专业论文.docx
- 典型耐压船体开孔加强结构优化设计-船舶与海洋工程专业论文.docx
- 典型结构在单轴与三轴随机振动下的动力学响应对比分析-机械工程专业论文.docx
文档评论(0)