分布式系统课件：Chapter 8 Fault Tolerance.pptVIP

下载本文档

6
0
约1.88万字
约 89页
2023-01-16 发布于安徽
举报
版权申诉

分布式系统课件：Chapter 8 Fault Tolerance.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Checkpointing设置问题关键问题：如何设置检查点和获取一个全局检查点的状态。全局检查点状态的形式定义：令：LSi为进程Pi的局部状态，则全局状态为: GS=（ LS1， LS2， LS3，...... ， LSn ）设: (1) transit(LSi, LSj)= m|s(m)∈LSi∧r(m) LSj(有发无收) (2) inconsistent(LSi,LSj)= m|s(m) LSi∧r(m)∈LSj (有收无发) 称全局状态GS: 强一致的———当且仅当对所有的i和j, 集合 inconsistent(LSi,LSj)= Ф∧ transit(LSi, LSj)= Ф 一致的——当且仅当，对所有的i，j， inconsistent(LSi,LSj)= Ф 否则是不一致的。 Checkpointing设置问题如何获取一个全局检查点的状态? Chandy与Lamport[85年]提出了一个简单的分布式算法（distributed snapshot）。参见ACM Transactions on computer systems,Feb.1985,3(1).63-75. 当一个进程或系统失效时，可以通过某种方法获得的全局一致的状态（比如： distributed snapshot ）进行恢复。 Checkpointing设置问题 A recovery line. Checkpointing设置两种设置方式： Independent Checkpointing; Coordinated Checkpointing; Checkpointing设置 (1) Independent Checkpointing; 各进程周期性地、独立地保存自己的运行状态，它们之间不相互协商（状态不一致），但是在恢复时需要相互协商，使系统恢复到一个一致性状态。可能产生多米诺效应。例如：比较发送和接受报文数目的一致性找到局部检查点的一致性集合，从而进行恢复（可能会产生多米诺效应），相关的检查点算法有很多，可参阅相关论文。 Checkpointing (2) Coordinated Checkpointing. 建立Checkpointing时协商，使其满足一致性状态的Checkpointing集合，恢复时不需要协商，只须从检查点重新开始执行，且每个进程只须保存最近时刻的检查点信息。建立Coordinated Checkpointing 的方法也很多，下面给出一种目前实际系统常用算法——Sync-and-Stop（SNS）算法。 Sync-and-Stop（SNS）算法算法如下（进程pc负责管理全局检查点建立过程）： (1) pc向所有进程广播开始报文Mb（第1次同步） (2) 任一进程收到Mb后停止运行，并在自己所发送的报文全部到达接收者后向pc发送报文Ms1。(inconsistent(LSi,LSj)= Ф∧ transit(LSi, LSj)= Ф) (3) pc收到所有进程发送的Ms1后（第1次同步结束），向各进程广播报文Mchk（第2次同步开始） (4) 任一进程收到Mchk后，建立检查点，完成后向pc发送报文Ms2。 (5) pc接受到所有进程的Ms2后（第2次同步结束），向所有进程广播报文Me。 (6) 各进程收到报文Me后，删除旧检查点，仅保留新的检查点，然后继续运行。由于该算法建立的检查点集合是满足一致性状态: 第一次同步后任何进程所发送的报文都已经被对应的接收进程接收到, 任何进程之间不会存在孤儿报文. 恢复时简单。 * 软件可靠性工程Software Reliability Engineering * 软件危机到软件工程软件的迅速发展，复杂性越来越高. 软件故障的影响，软件可靠性与硬件可靠性 2000年问题(100亿元) “阿里安-5”首发失败，损失67亿美元美国F-18飞控系统，首飞前试验2万小时，故障总数硬件故障数软件失效数 580 271 (48.4%) 309 (51.6%) 我国某军舰计算机系统，运行850小时故障总数硬件故障软件失效 120多次约30% 约70% 致命12次约30% 约70% * 软件失效举例操作系统[S. Garg等, ISSRE, 1998 ] 爱国者导弹拦截系统[Marshall E, S