网站大量收购闲置独家精品文档,联系QQ:2885784924

分布式系统故障检测的关键技术研究-计算机系统结构专业论文.docx

分布式系统故障检测的关键技术研究-计算机系统结构专业论文.docx

  1. 1、本文档共124页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式系统故障检测的关键技术研究-计算机系统结构专业论文

国内图书分类号:TP393 国际图书分类号:681.3.06 工学博士学位论文 分布式系统故障检测的关键技术研究 博 士 研究生:董 剑 导 师:杨孝宗 教授 申请学位级别:工学博士 学 科、专 业:计算机系统结构 所 在 单 位:计算机科学与技术学院 答 辩 日 期:2007 年 4 月 授予学位单位:哈尔滨工业大学 Classified Index: TP393 U.D.C.: 681.3.06 Dissertation for the Doctoral Degree in Engineering RESEARCH ON KEY TECHNIQUES OF FAILURE DETECTION IN DISTRIBUTED SYSTEMS Candidate: Supervisor: Academic Degree Applied for: Speciality: Affiliation: Date of Defence: Degree-Conferring-Institution: Dong Jian Prof. Yang Xiaozong Doctor of Engineering Computer Architecture School of Computer Science Technology April, 2007 Harbin Institute of Technology 摘 要 摘 要 - -I- 摘 要 目前,分布式系统的应用已经越来越广泛,规模和复杂性不断增加,其可 靠性变得越来越重要,却越来越难以实现。然而对于一些关键应用领域(如航 天、军事、金融、医疗等),确保系统的高可靠性是非常必要的。故障检测是构 建可靠的分布式系统所必需的基础服务组件之一。随着分布式系统规模的不断 扩大,故障检测的自适应能力和可扩展性已经变得非常重要。本文的工作针对 这两个问题展开,研究了其中几项关键技术。首先,在自适应于网络变化的基 础上,进一步研究了能够自适应于多个应用程序检测需求的故障检测器;然后 针对层次式检测方法存在的缺陷,分别研究了 Leader 节点的可用性问题和链路 故障的检测问题。本文的研究结果可直接应用于层次式检测方法各个环节的设 计之中,为大规模分布式系统故障检测机制的设计提供了理论支持。 分布式系统规模的不断扩大产生了大量对故障检测有着不同服务质量 (Quality of Service, QoS)需求的分布式应用,对于故障检测器,为保持其有效 性和可扩展性,应该既能够准确提供应用程序所需的故障检测 QoS,又能够避 免为满足不同 QoS 而设计多套故障检测器产生的多余负载。为此,检测器在自 适应于网络条件的基础上,还应该能够适应于不同应用程序的需求。本文基于 QoS 基本评价指标 (T U ,T L ,T U ) ,采用 PULL 模式主动检测策略实现了一种新的 D MR M 故障检测器 — QA-FD,可以同时支持多个应用程序定量描述的 QoS 需求,不 需要关于消息行为和时钟同步的任何假设。同时,证明了 QA-FD 在部分同步模 型下可实现一个◇P 类的故障检测器,并给出了相应的实验及数据。 层次式故障检测方法是降低检测负载,提高系统可扩展性的一种重要方法, 并且具有较高的实际应用价值。但是,这类方法过分依赖于每个分组的 Leader 节点,形成了一个单故障点,使 Leader 节点成为系统可靠性瓶颈。本文根据分 布式系统自身的特点,提出了一种基于仲裁的双模容错 Leader 节点解决方案。 通过马尔科夫模型对双模系统进行分析,指出了高覆盖率和高成功率的故障检 测机制对系统可用性的重要影响。针对传统使用的故障检测机制成功率较低的 问题,提出了一种仲裁检测机制,仲裁系统采用容错方案设计,具有较高的可 靠性,在双机无法对故障做出正确判断时,可作为可信的第三方对故障做出准 确的定位,有效地提高了系统的检测成功率。在此基础上,结合自检测和心跳 检测机制,设计了一种基于仲裁的多级故障检测机制,进而提出了一个完整的 哈尔滨工业大 哈尔滨工业大学工学博士学位论文 - -II- 双模高可用 Leader 节点解决方案,并将其应用到了实际项目的研发之中,通过 故障注入实验验证了其可用性能够满足系统的设计要求。 目前大多数故障检测算法都将故障模型局限于节点故障,将链路故障简单 的掩盖或是直接模型化为节点故障,这造成了系统节点资源的迅速消耗,导致 系统可用性的潜在下降。本文提出了一个基于多中心节点的故障检测协议 (DPHM),引入了多中心节点的检测结构,通过多中心节点间的表决机制可以 迅速、准确地检测并定位故障链路,解决了故障链路与故障节点无法区分的问 题。同时,中心节点之间引入了选举能力,可在中

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档