- 5
- 0
- 约8.81千字
- 约 60页
- 2017-02-06 发布于江苏
- 举报
分布式系统可靠性设计
主要内容 10.1 分布式容错模型 10.2 进程的恢复 10.3 可靠的客户服务器通信 10.4 可靠的分组通信 10.5 分布式提交 10.6 恢复处理 10.7 习题 10.1 分布式容错模型 可依赖系统(Dependable, Trustworthy) 可用性(availability) 系统可为用户服务的能力 可靠性(Reliability) 系统可连续工作的能力 安全性(Safety) 系统故障时产生危害的程度 可维护性(Maintainability) 系统故障修复的难度 基本概念(1) 失效(fail, failure)、失灵 一个系统不能满足它的承诺(提供服务) 差错(error): 导致系统失效的原因 故障(fault): 导致差错发生的原因 基本概念(2) 平均无故障时间(MTTF)Mean Time To Failure 平均能够正常运行多长时间,才发生一次故障。用来度量可靠性 p为每秒失效概率 平均无故障时间(MTTF) = Σ1∞kp(1-p)k-1=1/p 例:p=10-6,MTTF=106秒=11.6天 平均维修时间(MTTR)Mean Time To Repair 系统发生故障后维修和重新恢复正常运行平均花费的时间 用来度量可维护性 可用性= (MTTF / (MTTF + MTTR)) 故障的类型 按照故障出现的概率 短
原创力文档

文档评论(0)