第10章_分布式系统可靠性设计.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章_分布式系统可靠性设计

主要内容 10.1 分布式容错模型 10.2 进程的恢复 10.3 可靠的客户服务器通信 10.4 可靠的分组通信 10.5 分布式提交 10.6 恢复处理 10.7 习题 10.1 分布式容错模型 可依赖系统(Dependable, Trustworthy) 可用性(availability) 系统可为用户服务的能力 可靠性(Reliability) 系统可连续工作的能力 安全性(Safety) 系统故障时产生危害的程度 可维护性(Maintainability) 系统故障修复的难度 基本概念(1) 失效(fail, failure)、失灵 一个系统不能满足它的承诺(提供服务) 差错(error): 导致系统失效的原因 故障(fault): 导致差错发生的原因 基本概念(2) 平均无故障时间(MTTF)Mean Time To Failure 平均能够正常运行多长时间,才发生一次故障。用来度量可靠性 p为每秒失效概率 平均无故障时间(MTTF) = Σ1∞kp(1-p)k-1=1/p 例:p=10-6,MTTF=106秒=11.6天 平均维修时间(MTTR)Mean Time To Repair 系统发生故障后维修和重新恢复正常运行平均花费的时间 用来度量可维护性 可用性= (MTTF / (MTTF + MTTR)) 故障的类型 按照故障出现的概率 短暂型(transient):出现一次,再也不出现 间歇型(intermittent):消失后,再重复出现 永久型(permanent):一直存在 按照故障产生的原因 节点故障 硬件故障 软件故障 时序故障 基本概念(2) 故障控制 预防 去除 预告 容错(fault tolerance) 即使发生故障,系统仍能提供服务 系统的容错能力用可允许的故障节点数量来衡量。 如果系统能够在k个节点出现故障的情况下仍然能够完成任务,则称该系统为k-容错系统。 失效(失败)模型 失效(失败)模型 失败模型 故障-沉静系统(fail-silent)。由于故障产生的系统停止不能被其他节点感知。 故障-停止系统(fail-stop)。由于节点故障产生的系统停止能够被其他节点感知。 故障-安全系统(fail-safe)。由于节点故障而停止服务但不会产生随机故障。 拜占庭(Byzantine)故障系统(随机故障系统)。由于故障导致系统产生任意的响应。恶意的、难检测。 系统类型 同步系统:在规定上限时间内有响应 异步系统:响应时间没有上限 基于冗余的失效屏蔽技术 冗余类型 信息冗余:如,海明码。 时间冗余:如,重发,重做 物理冗余: 软件:如复制进程 硬件:如复制电路 信息冗余和物理冗余都属于空间冗余 基于冗余的失效屏蔽技术 三模冗余方法(TMR,Triple Modular Redundancy) 三路表决器(voter):三路输入,一路输出 可屏蔽一路错误(任意性失效) 10.2 进程的恢复 进程容错 进程组:具有相同功能的进程集合 组成员籍 加入:具有成员籍 脱离:注销成员籍 多组成员籍:同时属于不同的组 设计问题 需要复制的程度 无故障时,平均情况和最坏情况下的系统性能 有故障时,平均情况和最坏情况下的系统性能 组的管理(1) 扁平组:所有成员是同等的 层次组:协调程序和工作程序 组的管理(2) 组成员籍管理 组服务器:集中式管理 多播通信:分布式管理 组的管理(3) 消息同步 加入组时:立刻收到所有消息 退出组时:不再收到任何消息 组的重建 当组崩溃后,重新建立组 重建协议 复制容错技术(1) 复制容错 用多个相同的进程,屏蔽个别故障进程的故障 冗余度:相同进程的个数 基于主进程协议(primary-based) 结构:分层组结构 协议:primary-backup协议 复制写协议(replicated-write) 结构:平面组结构 协议:基于表决数协议 主-后备方法(primary backup) 主服务器失效,则后备服务器接替其任务 接管模型 复制容错技术(2) k-容错度: 在有k个进程发生故障时,系统仍能正确运行 Fail-stop型故障: 对k-容错度,需k+1冗余度 拜占庭型故障: 对k-容错度,需2k+1冗余度 容错的前提条件 所有的请求到达所有服务器的顺序应相同 原子广播问题(atomic broadcast problem) 故障检测 进程故障检测 主动式方法,发送 “Are you alive?”消息 常用方法, ping操作 被动式方法,等待发来的故障消息 超时机制,在规定时间内作出响应,否则,为故障 10.3 可靠的客户服务器通信 点到点通信 可靠通信:防止通信失效 遗漏型失效:消息丢失 解决策略:利用可靠的传输协议,

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档