网站大量收购独家精品文档,联系QQ:2885784924

容错技术培训.ppt

  1. 1、本文档共279页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机容错技术 魏贇 第一章 概述 容错和可靠性 容错技术的发展概况 容错技术的主要内容 容错技术应用 一、容错和可靠性 故障、失效和错误的概念 可靠性的概念 容错的概念 可靠性和容错的关系 (一)故障、失效和错误的概念 失效(failure)是指硬件物理特性异变,或软件不能完成规定功能的能力。 故障(fault)是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。 错误(error)是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。 容错设计的软件可以有某些规定数目的故障但不导致失效, 但对无容错的软件而言,故障即失效。 故障的分类 若按逻辑性来分 逻辑故障:造成逻辑值发生变化的故障 非逻辑故障:造成象时钟(clock)或电源出错等错误的故障 按时间划分: 永久性故障:调用诊断程序进行故障定位,然后采取纠错措施 间隔性故障:可以通过更换硬件或软件等途径来达到修复的目的 偶然性故障:只能靠改善环境条件等努力来减少这类故障 错误的根源 (二)可靠性 概念 实现系统可靠性的方法 系统可靠性的指标 1、概念 可靠性的含义 广义:一切旨在避免、减少、处理、度量软件/硬件故障(错误、缺陷、失效)的分析、设计、测试等方法、技术和实践活动。 狭义:指软件/硬件无效运行的定量度量。 可靠度:在规定的运行环境中和规定的时间内软件无失效运行的机会。 2、实现系统的可靠性 排错 容错 排错 避免故障,通过对组成系统的部件进行严 格的筛选、对系统进行严格的测试、对系 统进行屏蔽以减少外界的干扰等方法来提 高系统的可靠性。 容错 即使采用了排错技术,一个计算机系统还是迟早会发生故障的。因此在设计计算机系统时应考虑一旦发生故障能自动检测出故障并使系统自动恢复正常运行。这样设计出来的计算机系统在发生故障后仍能正确运行。 容错技术是从系统结构方面来提高计算机系统的可靠性 容错技术与排错技术并不是相互对立的,它们可以相互补充,构成高可信的计算机系统 3、系统可靠性的指标 可靠性 可维性 可用性 可靠性 计算机机的可靠性指:计算机在规定的条件和规定的时间内完成规定的功能的概率 规定的条件:环境条件,使用条件,维修条件,操作技术 失效:产品在规定的条件下和规定的时间内丧失了规定的功能。 失效率:指计算机在某一瞬间元件失效数与元件总数的比率。 可维性 可维性(Serviceability)是指在规定的时间内,按照规定的程序和方法进行维修时,保持或恢复到能完成规定的功能的能力 通常指从判定故障到排除故障所需要的时间,包括故障诊断、故障定位、系统校正和恢复等时间。 可保持性(Maintainability)是指系统在给定的时间内可隔离故障或修复的概率。它表征了系统可以正常运行的效率。 可用性 可用性(Availability)称有效率或利用 率,是可维修部件在某时间具有维持规 定功能的能力,即计算机系统的利用效 率,也是系统在执行任务的任意时刻能 正常工作的概率。 (三)容错技术概念 容错(Fault-tolerance):容忍故障,考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。 当出现某些指定的硬件故障或软件错误时,系统 仍能执行规定的一组程序,或者说程序不会因系 统中的故障而中止或被修改,并且执行结果也不 包含系统中故障所引起的差错。 容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。 设计与分析容错计算机系统的各种技术称为容错技术 容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统 实现容错计算的四个方面 (1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。 (2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。 (3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一个正确的系统状态。 (4)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。 容错系统的一般阶段 故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。 故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档