论文:容错技术的发展与应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论文:容错技术的发展与应用.doc

容错技术的发展与应用 摘 要:随着现代工业技术的发展和计算机的普及,对计算机可靠性的要求愈来愈高。如何进一步提高计算机的可靠性,保障工业流程安全、可靠地进行,是各国计算机专家致力于解决的问题。容错技术是建立在“冗余”设计的基础上的,对计算机可靠性的提高十分有效。本文对容错技术的原理及典型结构进行了阐述,并分析了容错技术在未来的发展中必须突破的关键技术。 关键词: 避错 容错 双机并联 随着现代工业技术的发展和计算机的普及,对计算机可靠性的要求愈来愈高。如何进一步提高计算机的可靠性,保障工业流程安全、可靠地进行,是各国计算机专家致力于解决的问题。解决计算机可靠性的方法归纳起来大体可以分为两类:第一类是通过对计算机元器件的严格挑选,提高老化筛选的阈值,保证元器件的质量,使系统尽量少出错,从而提高计算机的可靠性。我们称这样的技术为“避错设计技术”。然而,任何一个系统都很难做到绝对不发生故障,对元器件的严格挑选程度又不能无限地提高。因此,避错设计技术对系统可靠性的提高存在一定的瓶颈。第二类是允许系统内部有故障存在,通过容错技术消除故障的影响,使系统最终仍能给出正确的结果。这种高可靠性技术是建立在“冗余”设计的基础上的。实践证明,容错设计对计算机可靠性的提高十分有效。 系统故障的表现形式及其错误的根源 故障、失效和错误的概念 研究容错技术的目的在于消除故障所导致的停机后果。人们常说的“出错”,严格地讲还不够准确。所谓“错”实际上是故障、失效和错误的概念的统称。对于研究容错技术来讲,需要把三者区分开来。 失效(failure):是指硬件物理特性异变。例如集成电路内部硅片表面的龟裂,连线短路或断路、漏电,电路输出的电平由正常变到非正常值等。 故障(fault):是指硬件或软件的错误状态,是失效在逻辑上的等效。例如一个电路的逻辑值由“1”状态错成“0”状态,软件判断的“是”错成“否”等,都称为故障。一个故障可以用种类、值、影响范围和发生时间来描述。 错误(error):是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果,如运算结果由正变成负,或是一个完整的值,都称为错误。 故障的分类 按逻辑性来分,故障可以分为逻辑故障和非逻辑故障两种。造成逻辑值发生变化的故障称为逻辑故障,造成像时钟或电源出错等错误的故障称为非逻辑故障。 按时间划分,故障可以分为以下三种: 永久故障:是指永远持续下去直到修复为止的故障。对硬件来说,永久性故障意味着不可逆的物理异变,如一个电路损坏等。对软件来说,这类故障也是一个不可自动恢复的错误状态。 间隙性故障:这种故障是短暂又断续的,既具有偶然性,又有不定期的重复性,如一个处于临界状态的电路输出时好时坏,又如一个虚焊点也会引起这样的故障。 偶然性故障:故障的出现是短暂、非重复的。往往是由于环境的变化、电源方面的干扰、元器件性能波动、软件的随机因素、电磁干扰等因素而引起。这样的故障有可能仅出现一次,或很长时间出现一次,但却可能造成数据出错,甚至导致系统瘫痪。 针对不同故障需采取不同的解决方法。如对于永久性故障,可以调用诊断程序进行故障定位,然后采取纠错措施;对于间隙性故障,因其持续时间很短,因而无法使用诊断程序,但它又有重复性,所以又提供了一个进行判断错误的机会,可以通过更换硬件或软件等途径来达到修复的目的;要纠正由于环境等因素造成的偶然性故障,则是十分困难的事,这种故障一闪而过,连故障来自哪个方面都难以确定,但后果已经造成,只能靠改善环境条件等努力来减少种类故障。因此,如何消除间隙性故障和偶然性故障的影响,就是容错技术所解决的问题。 统计表明,间隙性故障和偶然性故障占整个故障的比例很大,成为系统出错的主要根源。早期美国空军的一项研究报告指出,这类故障占所有故障的80%。后来,一个著名老牌计算机公司的一项报告指出,这类故障占所有现场失效的90%。由此可见,容错技术和一台容错计算机,主要应解决的问题,将是如何纠正因间隙性故障和偶然性故障而引起的错误。 容错技术的内容 容错技术能达到对故障的“容忍”,但并非“无视”故障的存在。它首先要能自动适时地检测并诊断出系统的故障,然后采取对故障进行控制或处理的策略。 根据错误的不同情况,一个容错系统可能经历多达10个阶段。 故障限制。即把故障效应的传播限制到一个区域内,从而防止污染其他区域。 故障检测。 即检测逻辑故障,包括脱机检测和联机检测两个主要类别。在脱机检测情况下,进行测试时设备不能做有用的工作。联机检测则具有一定的实时检测能力,使得检测工作能够与日常工作同时进行。 故障屏蔽。即把失效效应掩盖起来,从某种意义上说,可以说是冗余信息战胜了错误信息。 重试。 诊断。 重组。当检测出一个故障并判明是一个永久性故障时,重组系统的器件能够替代失效器件或把失效的器件与系统的其他部分

文档评论(0)

czy2014 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档