分布式系统之10、容错性.ppt

下载文档 降价啦

20
0
约2.4千字
约 35页
2017-10-16 发布于湖北
举报
版权申诉
保障服务

分布式系统之10、容错性.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式系统之10、容错性

多播：发送到进程组的消息被传送到组中所有成员。多播面临的问题：通信期间，有进程加入组通信期间组中有成员崩溃最简单解决方法：对进程组每个成员建立点到点的连接一种简单有效的方法如下页图示。简单的可靠多播简单方法致命问题当接受者数量庞大时，大量的反馈消息将淹没发送者，引起反馈拥塞。解决方法一：只在消息丢失时反馈问题：发送者只好永远在历史缓存器中保留消息，因为不知道消息是否送达。而且即使否定反馈依然可能拥塞。方法二：无等级反馈控制接受者不发送成功确认当丢失消息时向组中其他成员多播其否定反馈而其他成员如果也丢失了消息，则在收到这个丢失反馈后不再向发送者发送丢失反馈保证了只有一个重发请求送往发送者。无等级反馈抑止无等级反馈的实际应用中还是有困难：首先要确保只有一个重发请求发送到发送者，需要所有接受者对反馈进行准确的调度，这在散布在广域网中的进程组是难事。其次多播反馈有可能中断其他成功接收消息的进程。方法三：分等级反馈控制接收进程组的成员数量非常大接受组被划分为许多子组，这些子组组织成树的形式，包含发送者的子组构成了树的根在每个子组内，可以选用任意一种可靠多播方案每个子组都指定一个本地协调者，负责处理子组的接收，以及本地的重发本地协调者具有自己的历史缓存分等级的可靠多播主要问题：树的建立，很多情况下树是动态建立的当把进程失败的情况考虑进来，就需要用原子多播。在分布式系统中对进程组多播时，经常需要保证消息要么发送给所有进程，要么就不向任何进程发送。有时还需要按相同的顺序发送给所有进程。这种方式多播就是原子多播。基本概念故障使用冗余掩盖故障容错即意味着系统能在故障发生的情况下继续提供服务。几个相关概念可用性：系统可以工作，即可被使用可靠性：指系统可以无故障地持续运行安全性：系统在偶然出现故障的情况下可以正确操作而不会造成任何灾难。可维护性：系统发生故障后，恢复的难易程度可以分为暂时的、间歇的和持久的。可以进一步分为以下类型：故障类型说明崩溃性故障服务器停机，但停机之前工作正常遗漏性故障接收遗漏发送遗漏服务器不能响应来到的请求服务器不能接收消息服务器不能发送消息定时故障服务器未能按时响应响应故障值故障状态转换故障服务器响应不正确响应值不正确服务器偏离了正确的控制流随意性故障服务器可能在随意的时间产生随意的响应分布式系统容错的目的对其他进程或客户隐藏故障（故障透明性）容错手段：使用冗余掩盖故障三种冗余方法：信息冗余：添加额外的位以使错误的位恢复。时间冗余：多次重复一个操作，适合临时性或间歇性故障。物理冗余：物理上添加备份进程组平等组和等级组组成员的管理进程组把多个相同的进程组织到一个逻辑的组中当组中某个成员进程遭遇故障而不能工作时，组中其他成员可以接管它目的允许把进程的集合作为逻辑上单一的对象来处理，增加系统的容错性进程组特性组本身可以是动态的组成员可以是动态的一个进程可以从属于多个组类型：平等组和等级组平等组对应分布式概念所有成员地位都是相同的所有决定都是共同作出的等级组对应集中式概念一般有一个协调者进程，其他则是工作者组内关系和动作由协调者做决定平等组和简单等级组平等组没有单独故障点决策效率低等级组有单个故障点决策效率高。基本问题加入与离开组成员故障处理使用组管理服务器（集中式方法）所有进程要加入或者离开组都向它申请优点：直接，高效，易于实现缺点：单一失败点分布式方法进程加入和离开组需要给所有成员发请求，共同作出决定当成员发生故障崩溃时，需要通过一些协议来重建组分布式系统通信的可靠性设计的重点在于掩盖崩溃性故障遗漏性故障随意性故障—通过重复消息的形式排除。对于点到点通信，如TCP通信，崩溃性故障只能由分布式系统重新建立连接。在RPC调用中，有5种失败形式：客户不能定位服务器客户到服务器的请求消息丢失服务器在收到请求之后崩溃从服务器到客户的响应消息丢失客户在发送请求之后崩溃客户端不能定位服务器由应用程序抛出异常来处理请求消息丢失超时重发机制两种情况，但对客户来说，都是超时执行之后崩溃执行之前崩溃三种处理方式在服务器重启之前等待并再次尝试操作立即放弃并报告失败什么都不保证也是依靠客户端的超时重发机制处理问题：转帐另一种方法：为每个客户请求配一个序列号，这样服务器就能分辨客户的新请求与重发的请求，当服务器收到重发的请求时，不执行重复操作最大问题：孤儿进程的产生 RPC调用中，客户进程与它调用的服务器计算之间是父子关系，当客户崩溃后，驻留在服