- 0
- 0
- 约4.66千字
- 约 43页
- 2018-05-11 发布于河南
- 举报
分布式处理讲稿8
第8章 容错性 主要内容 容错性概述 进程恢复 可靠的客户-服务器通信 可靠的组通信 分布式提交 恢复 引言 分布式系统区别单机系统的一个特性是它可以容许部分失效。 分布式系统构建的一个重要目标:可以从部分失效中自动恢复,且不会严重影响整体性能。 进程恢复:使一个进程或多个进程发生故障而不会严重影响到系统的其余部分。 可靠多播:确保可以成功的把信息传输到一个进程集合。 容错性概述 容错系统(可靠的系统)包含的需求: 可用性 可靠性 安全性 可维护性 故障 造成错误的原因被称为故障。 容错意味着系统即使在发生故障时还能提供服务。 故障分类 暂时故障:只发生一次就消失,即使重复操作也不会发生; 间歇故障:发生,消失,再次发生,如此反复; 持久故障:持续存在的故障。 故障模式 冗余掩盖故障 如果系统是容许的,那么它能做的最好的事情就是对其他进程隐藏故障的发生。 关键技术:冗余掩盖故障 信息冗余;(检验技术) 时间冗余;(多次执行) 物理冗余;(添加额外装备或进程) 物理冗余 物理冗余是提供容错技术的著名技术,尤其在电子电路容错设计中。(TMR) 进程恢复 容忍失败进程的关键方法是把多个同样的进程组织到一个组中。 所有组都具有的关键特性是当信息发送到组本身时,组中所有进程都接收它。?? 组中的一个进程失败,其他一些进程可以接管它。 一个进程可以加入一个组也
原创力文档

文档评论(0)