- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高级操作系统课件-第八容错性高级操作系统课件-第八章容错性
第八章 容错性 容错性简介 容错意味着系统即使发生故障也能提供服务 容错与可靠性相联系,包含以下需求: 可用性(Availability):任何给定的时刻都能及时工作 可靠性(Reliability):系统可以无故障地持续运行 安全性(Safety):系统偶然出现故障能正常操作而不会造成任何灾难 可维护性(Maintainability):发生故障的系统被恢复的难易程度 故障模型 造成错误的原因称为故障 故障分为 暂时故障:只发生一次 间歇故障:反复间隔发生(接触不良) 持久故障:持续存在的故障(软件错误、磁盘头损坏) 故障模型 不同类型的故障 使用冗余来掩盖故障 三倍的模块冗余 进程恢复平等组与等级组 为防止进程失败,把进程复制到组 当消息发送到组时,组中所有成员都接收它,一个进程失败,其他进程可以接管它 进程组是动态的 平等组通信:增加延迟和开销 简单等级组通信:单点失效 组成员 组通信时,需要创建和删除组,以及允许进程加入和离开 使用组管理器:存储相应数据库,直接、有效、容易实现;单点失败 分布式的方法: 加入组: 发消息给所有的组成员 离开组: 发消息给所有的组成员,需考虑崩溃的情况 进程加入和离开必须与数据消息的发送同步 重建组 故障掩盖和复制 复制进程,用一个容错的进程组来代替一个脆弱的进程 需要多少复制? 如果系统能经受K个组件的故障而且能满足规范的要求,被称为K容错的 如果组件是失败沉默的,具有K+1个组件即可 如果组件发生拜占庭错误( Byzantine fault ),继续错误运行,则至少需要2K+1个组件才能获得K容错 拜占庭错误:在非失败沉默模型下,一个有故障的进程可能会对其它进程发出干扰消息,从而影响这些进程的正常工作。 拜占庭错误是所有故障类型中最严重的 故障系统的协议 (1) 分布式协议算法的目标是使所有的非故障进程就一些问题在有限步骤内达成一致 通信是否可靠:两军问题 进程故障:拜占庭将军问题 Lamport 证明在具有m个故障进程的系统中,只有存在2m+1的正常工作的进程才能达成协议 故障系统的协议 (2) 三个忠诚将军和一个叛徒的问题 将军宣布他们的兵力 在(a)基础上每个将军的向量 每个将军收到的向量 故障系统的协议(3) 两个忠诚将军和一个叛徒的问题 可靠的C-S通信 RPC系统失败的五种情况: 客户不能定位到服务器 客户到服务器的请求消息丢失:使用定时器 服务器在收到请求后崩溃 最少一次语义: 再次尝试操作,将应答传给用户,RPC最少执行一次 最多一次语义: 放弃并报告失败,RPC最多执行一次 从服务器到客户的响应消息丢失: 使用定时器; 幂等操作; 为每个请求分配一个序列号 客户在发送请求后崩溃:孤儿进程 浪费资源 处理孤儿进程的方法 消灭:客户重启后根据客户端日志清除孤儿进程 再生:将时间分为顺序编号的时期,客户重启后广播清除孤儿进程 优雅再生:找不到拥有者,再清除孤儿进程 到期:给每个RPC指定标准的执行时间 服务器崩溃Server Crashes (1) client-server 通信中的服务器 通常情况 执行后崩溃 执行前崩溃 可靠的组通信 可靠多播:发送到一个进程组的消息被传递到该组的每个成员 问题: 如果通信期间有进程加入 如果通信期间一个(发送)进程崩溃 基本的可靠多播方法: 假定所有的接收者已知而且假定不会失败的简单可靠多播方法 可靠多播的可扩展性 原子多播:实现存在进程失败的情况下的可靠多播 可靠的组通信--基本的可靠多播方法 当所有的接收者已知而且假定不会失败的简单的可靠多播方法 消息传递 反馈 可靠多播的可扩展性 上面介绍的可靠多播方法不能支持过多的接收者:反馈拥塞 解决办法: 接收者不反馈,只有通知消息丢失时反馈一消息 不能保证永远不发生反馈拥塞 发送者需要一直在缓存器中保留消息 无等级的反馈控制 分等级的反馈控制 无等级的反馈控制Nonhierarchical Feedback Control 反馈抑制:几个接收者要发送重发请求,但是第一个重发请求抑制了其他的请求。 具有很好的可扩展性 问题: 需要每个接收者对反馈消息进行准确的调度,否则还会有多个接收者同时反馈 中断其他成功接收消息的进程 分等级的反馈控制Hierarchical Feedback Control 在非常大的接收组中获得扩展性 多等级的可靠多播:每个本地协调者都把消息转发给它的孩子然后再处理重发请求 每个子组内可使用适合小组的可靠多播方式 协调者有自己的缓存器,如果自身丢失消息,则请求父组的协调者重发消息 在基于确认的方法中,如果收到消息,协调者向父亲发送确认。如果协调者从子组的所有成员和它的孩子得到对消息m的确认,则删除消息m 原子多播 需要在存在进程失败的情况下获得可靠多播
您可能关注的文档
最近下载
- Siebel TAS销售管理方法论交流.ppt
- 一种耐高温热轧H型钢及其生产方法.pdf VIP
- 2025协同办公领域AI发展与应用实践报告.pptx VIP
- 2025年中电建电力运维管理有限公司招聘笔试参考题库含答案解析.pdf
- 2024中电建电力运维管理有限公司招聘361人笔试参考题库附带答案详解 .docx
- 一例高血压患者的护理个案.docx VIP
- 2025年高考语文课内文言文知识梳理(统编版)专题04《登泰山记》(解析版).docx VIP
- 2025年新高考语文专题复习:小说情节知识点讲解 课件139张.pptx VIP
- AI大模型产业落地场景和价值.pdf VIP
- 彩钢板屋面拆除、更换屋面板施工方案.docx VIP
文档评论(0)