第8章 分布式系统的可靠性讲义.pptVIP

  • 8
  • 0
  • 约1.04万字
  • 约 53页
  • 2016-11-14 发布于江苏
  • 举报
第8章 分布式系统的可靠性 基本模型 分布式系统的一个重要目标是获取高度的可依赖性(Dependability)。 可依赖性的概念包括以下三个方面: 可靠性:在错误存在的情况下持续服务的能力。 安全性:不出现灾难性错误的能力。 保密性:指避免、或承受对系统进行的故意性攻击的能力。 本章重点关注可依赖性中的可靠性,即故障、错误或失效(faults, errors, or failures,这些概念通用)的检测和处理。 基本模型 分布式系统可靠性的目标是当故障发生时,确保系统的全局一致性。即确保系统具备容错能力。 故障来源于如下4类: 节点(硬件)故障:物理硬件故障; 程序(软件)故障:软件设计或编码错误; 通讯故障:通信介质故障; 时序故障:物理故障导致运行时序错误。 基本模型 要确保系统具备容错能力,通常使用冗余技术。 有四种冗余类型: 硬件冗余:如额外的PE、I/O系统等。 软件冗余:如软件模块的额外版本。 信息冗余:如使用了额外位数的错误检测代码。 时间冗余:如用来完成系统功能的附加时间。 基本模型 有三种基本的处理故障的方法: 主动复制。所有的复制模块协同进行,并且它们的状态紧密同步。 被动复制。由唯一的一个处于主动的模块设定定期检查点,定期更新其它模块的交互状态。 半主动复制。是主动复制和被动复制的混合。此种方法所需的恢复开销相对较低。 主动复制用到了错误屏蔽的概念,即隐

文档评论(0)

1亿VIP精品文档

相关文档