- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 容错性 主要内容 8.1 容错性概述 8.2 进程恢复 8.3 可靠的客户服务器通信 8.4 可靠的组通信 8.5 分布式提交 8.6 恢复 8.1 容错性概述 可依赖系统(Dependable, Trustworthy) 可用性(availability) 在给定时刻能正确操作的概率 可靠性(Reliablity) 在给定期间能正确操作的概率 安全性(Safty) 临时失效不会造成灾难 可维护性(Maintainability) 易于对失效进行修复的系统 基本概念(1) 失效(fail, failure)、失灵 一个系统不能满足它的承诺(提供服务) 差错(error): 导致系统失效的系统状态 故障(fault): 导致差错发生的原因 基本概念(2) 平均无故障时间(MTTF) 平均能够正常运行多长时间,才发生一次故障。用来度量可靠性 p为每秒失效概率 平均无故障时间(MTTF) = Σ1∞kp(1-p)k-1=1/p 例:p=10-6,MTTF=106秒=11.6天 平均维修时间(MTTR) 系统发生故障后维修和重新恢复正常运行平均花费的时间 用来度量可维护性 可用性= (MTTF / (MTTF + MTTR)) 基本概念(2) 故障控制 预防 去除 预告 容错(fault tolerance) 即使发生故障,系统仍能提供服务 故障类型 短暂型(transient):出现一次,再也不出现 间歇型(intermittent):消失后,再重复出现 永久型(permanent):一直存在 失效(失败)模型 失效(失败)模型 失败模型 失败缄默(fail-silent)。不通知失效。 失败即停 (fail-stop)。良性的。易检测。 失败安全(fail-safe)。不产生恶果。 拜占庭(Byzantine)故障。恶意的。难检测。 拜占庭帝国(330-1453) 系统类型 同步系统:在规定上限时间内有响应 异步系统:响应时间没有上限 基于冗余的失效屏蔽技术 冗余类型 信息冗余:如,海明码。 时间冗余:如,重发,重做 物理冗余: 软件:如复制进程 硬件:如复制电路 信息冗余和物理冗余都属于空间冗余 基于冗余的失效屏蔽技术 三模冗余方法(TMR,Triple Modular Redundancy) 三路表决器(voter):三路输入,一路输出 可屏蔽一路错误(任意性失效) 8.2 进程恢复 进程容错 进程组:具有相同功能的进程集合 组成员籍 加入:具有成员籍 脱离:注销成员籍 多成员籍:同时属于不同的组 设计问题 需要复制的程度 无故障时,平均情况和最坏情况下的系统性能 有故障时,平均情况和最坏情况下的系统性能 组的管理(1) 扁平组:所有成员是同等的 层次组:协调程序和工作程序 组的管理(2) 组成员籍管理 组服务器:集中式管理 多播通信:分布式管理 组的管理(3) 消息同步 加入组时:立刻收到所有消息 退出组时:不再受到任何消息 组的重建 当组崩溃后,重新建立组 重建协议 复制容错技术 k-容错度: 在有k个进程发生故障时,系统仍能正确运行 Fail-stop型故障: 对k-容错度,需k+1冗余度 拜占庭型故障: 对k-容错度,需2k+1冗余度 容错的前提条件 所有的请求到达所有服务器的顺序应相同 原子广播问题(atomic broadcast problem) 故障系统的协定问题 协定(agreemnt) 对某些问题的一致意见。如,是否提交事务,负载划分,同步等 分布式协定算法 在有限的步骤内,所有非故障进程达成协定 底层系统中可能的情况: 同步vs异步系统 限定的或无限定的通信延迟 有序的或无序的消息递交 单播(unicast)或多播(multicast)式消息传送 故障系统的协定问题 能够达成分布式协定的环境 故障系统的协定问题 可以取得一致的三种情况: 1、处理机同步方式、通信延时有限 处理机可用超时检测机制,确定其他失败进程 2、消息有序,广播式传输 每个处理机原子式广播一个初始值,其他处理器按照次序接收,能够同意谁是第一个发送的 3、处理机同步,消息有序 举例:故障系统的协定问题 拜占庭将军协定问题 假设通信是可靠的,但进程可能是不可靠的 例:3个忠诚将军,1个叛变将军 Lamport递归算法 共4步:(a)对外报告(b)收集向量(c)报告向量(d)生成结果向量:(1,2,未知,4) 举例:故障系统的协定问题 若三个将军中,有两个忠诚将军,一个叛变将军,则不能判断出哪个将军叛变。 若要有m个进程出错的系统实现协同一致,最少要有2m+1个正常进程。进程总数为3m+1。 需超过2/3多数,才能达成协定 故障检测 进程故障检测 主动式方法,发送 “Are you a
您可能关注的文档
最近下载
- 毛中特题库及答案.doc VIP
- TIA-942数据中心电信基础设施标准(中文版).pptx VIP
- 智能经济+人工智能与制造融合可行性研究.docx VIP
- 人教版小学五年级上册数学第一单元.ppt VIP
- 人教版小学科学《建筑中的结构(一)》教学课件.pptx VIP
- dram技术发展史年表.pdf VIP
- 2025年广西专业技术人员继续教育公需科目考试题库及答案(可考95分以上).docx
- 精品解析:天津市双菱中学2024-2025学年七年级上学期期末考试英语试题(解析版).docx VIP
- 第二单元《银屏乐声》第3课时《人世间》+《永志不忘》课件 人音版八年级音乐上册.pptx VIP
- T_CITS 359—2025(医学实验室分子诊断质控品选择和使用指南).pdf VIP
原创力文档


文档评论(0)