课程-分布计算系统05.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课程-分布计算系统05.ppt

分布计算系统容错 计算机科学与工程系 周兴社 背景与概念(1) 背景分析 多数分布计算系统具有一定的可靠性要求 C4I系统、卫星测控系统、航空电子综合化系统等军事应用系统 金融分布信息管理系统、基于Internet的电子商务系统等商业应用系统 ISP/ICP/ASP类型的服务系统、电信管理系统等要求持续运行能力 背景与概念(2) 容错是提高分布系统可靠性的主要途径 利用高可靠部件组成的高可靠系统专用性强,成本太高,适用特殊应用领域。如航天系统,受到体积、重量、功耗等严格限制。 分布计算系统的资源重复为采用容错技术提供物质条件。利用普通的计算机能够实现较高的系统可靠性能,具有优良的性能/价格比。 容错技术本身在不断发展,容错磁盘系统RAID、备份技术等能够有效保证分布计算系统的可靠性 背景与概念(3) 故障模型 失效、错误和故障 Fail 系统不能实现其全部功能;不能提供部分服务 Error 导致失效的系统部分状态;消息传输错误 Fault 引起系统错误的原因;内部原因/外部原因 故障类型 瞬时故障 (Transient fault)仅出现一次的故障;偶然干扰引起的通信故障 间歇故障 (Intermittent fault)反复多次出现的故障;连接器松动 固定故障(Permannent fault)在故障部件修复前一直存在的故障;软件Bugs,磁盘头损坏 背景与概念(4) 可靠性评价指标 MTBF(Mean-Time Between Failure)平均故障间隔时间,适用不可修复系统 MTTR (Mean-Time To Repair )平均维修时间,适用可修复系统 可用性A(Availability)系统生命期内正常操作的比率 A=MTBF/MTBF+MTTR 简化表示:MTBF》MTTR,A=1-MTTR/MTBF 提高系统可用性的技术途径:减小MTTR/增大MTBF 可用性是较实用的可靠性评价参数。高可用系统(HA)已成为流行说法。 分布系统容错技术(1) 容错 系统在部分失效时继续发挥作用的能力。系统部分失效是客观存在的。 硬件老化引起自然故障 环境影响触发瞬时失效 软件错误导致系统失常 随着VLSI技术使硬件可靠性增强,系统规模日趋庞大,系统所隐藏的设计错误在特定条件下暴露出来使系统失效已成为主要类型。 分布系统容错技术(3) 冷备份和热备份。冷备份为后备副本在主副本正常操作时不活动,仅在主副本故障时切换并启动之代替主副本;热备份是主副本与后备副本同时完成相同内部操作,但在主副本正常时,后备副本不影响系统输出。 在主动复制技术中,所有副本的地位是平等的。以多副本Server为例说明其原理。 Client 向所有副本发送请求 各副本接受请求后,均对该请求进行处理,并以应答Client。 Client依其策略处理应答。第一响应策略、多数一致策略、完全一致策略。 分布系统容错技术(4) 热备份正常操作过程 以多副本Server为例 Client向主副本发送请求req 主副本接受Client的req,并处理之,并更新状态,并向其他后备副本发送更新消息 各后备副本接受更新消息,据之更新自身状态,并返回确认消息Ack。 主副本等待接收所有处于正确运行状态的后备副本的确认消息后,给Client发送应答消息res Client对主副本返回的结果进行处理,继续运行 分布系统容错技术(5) 热备份切换操作过程 主副本在运行过程中发生失效,选一后备副本作为新的主副本 主副本失效时刻: 主副本将更新消息发送给后备副本之前发生失效; 发送更新消息之后失效; Client收到应答消息之后发生失效。 依据主副本失效时刻分别处理; Client重发请求,新主副本以新请求处理; 保证更新消息的原子性, 避免主副本重复执行同一请求req。 分布系统容错技术(6) 实现容错的技术关键 可靠的组通信 在上述容错机制中,Client与副本之间的交互成为Client与副本组的交互;主副本与后备副本之间的交互是组成员之间的交互。为解决相关问题,应采用组通信机制。 组通信机制应保证可靠通信和原子特性。 关键是同步算法 基于复制的容错是组通信的典型应用,具体应用还有那些问题需要考虑,作为思考题 分布系统容错技术(7) 复制算法 (以主动复制为例) 主动或被动复制容错均要求副本之间的状态一致性。 在主动复制方法中,所有副本必须按全序处理所有请求,(依顺序处理请求)设计和实现全序算法。 对称性算法 所有成员执行相同代码;非对称算法是一成员为协调者,负责规定系统中的消息顺序;非对称算法效率高(花费回合少),但语义保证弱 算法实现由客户处理协议和副本成员处理协议两部分组成。 分布系统容错技术(8) 容错效果评价 设一DCS有r个处理机,需要同时工作,r

文档评论(0)

cai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档