一种故障管理系统层次化结构设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种故障管理系统层次化结构设计

一种故障管理系统的层次化结构设计   摘 要:基于故障管理基本原理,提出了一种故障管理系统的层次化结构设计方案,分析了该层次化结构的基本特征,并研究了该结构在高端服务器上的实现技术。实际应用表明,该结构具有可行性,基于该结构实现的故障管理系统可较好地提高服务器可靠性。   关键词:故障管理; 错误处理; 故障诊断; 故障修复   中图分类号:TP311文献标志码:A   文章编号:1001-3695(2010)03-00961-05   doi:10.3969/j.issn.1001??3695.2010.03.042            Design of layered structure for fault management system         TIAN Xin, LIAO Xiang-ke, SHAO Li-song      (College of Computer, National University of Defence Technology, Changsha 410073, China )      Abstract:Based on fault management theory, this paper proposed a layered structure of fault management system. Illustrated the essential characteristics of this layered structure, then studied the implementation of this structure on high performance servers. Practical application demonstrates the structure is feasible and fault management system based on this structure can improve the reliability of servers.   Key words:fault management; error handling; fault diagnosis; fault repair            现代商业应用对于服务器可靠性提出了很高的要求,这需要系统具有可靠的预测性故障检测功能和自动的故障隔离修复功能。在高端服务器中设计部署故障管理系统,实现故障预测、诊断和处理的集中化、自动化和智能化,这对于服务器可靠稳定地运行具有重大意义[1]。   故障管理系统主要针对硬件故障。硬件故障主要来自三个方面:CPU内存、I/O设备和电源制冷等机架系统。硬件故障管理常常需要硬件、平台固件和操作系统一起协同实现,甚至还可能需要其他的辅助处理器[2]。本文的主要贡献为:通过对现代高端服务器的故障管理基本原理和特性的研究,提出了一种故障管理系统的层次化结构设计的基本思想。该层次化结构实现了故障管理系统的错误处理、故障诊断和故障修复三大功能组件;具备强大的硬件拓扑结构描述能力,可自主设计与服务器硬件拓扑结构相适应的故障诊断规则;具备可扩展的事件协议,可精确并完备地描述各类错误和故障状况;充分考虑了现代服务器的多域特性,可在多域中部署并协作,以实现故障管理性能的最优化。   1 基本原理   在故障管理研究领域内,错误和故障的含义不同。错误是指系统某次事务中的异常行为,而故障是指系统组件在物理上的异常状态[3]。一系列的错误可能反映某个系统组件发生故障,但某次系统事务出现错误并不意味着一定有系统组件故障。例如,数据传输中可能会通过ECC校验发现一些数据位错误,只要错误位不是太多,此错误就可被纠正,因此只要这种错误出现的频率不高,就可认为传输链路上没有故障;然而出错频率若高过一定门限,或错误位太多无法纠正,就意味着有故障出现了。另一方面,即使某组件客观上存在故障,相关系统事务也不是肯定会产生错误,但是如果有其他因素综合作用,就可能导致错误,故障是潜在的错误诱因。   错误处理和故障修复也不同。错误处理是指纠正某次系统事务的异常行为,对其造成的负面影响进行恢复;故障修复则是从物理上修复或屏蔽故障组件。如果错误是由系统组件故障引起的,单靠错误处理并不能从源头上消除故障,必须通过诊断错误信息获知故障源,对故障组件进行修复或替换,才能根除故障。这两者含义上也可能有重叠的部分,通常将一些更为实时的恢复动作视为错误处理。   故障管理系统通过监控系统运行的异常行为,即所谓的错误,来及时发现组件的故障。故障管理系统会实时监测并纠正错误,并根据系统运行的错误信息形成错误事件,自动分析、诊断错误事件

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档