- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机群系统可靠性研究的新思路主动故障检测机制研究
机群系统可靠性研究的新思路
—主动故障检测机制研究
武林平 孟丹 詹剑锋 高文
1 引言
随着机群系统规模的扩大与复杂化,可靠性与可用性问题已成为制约机群系统应用的重
要障碍。目前,针对机群系统可靠性与可用性的研究方法主要分为两类。一类是以部件冗余、
失效侦测(Failure Detection )及恰当的恢复机制为基础,以提供不间断服务为目的的高可用
技术 [1] 。机群系统的节点都是完整的计算机,因此具有天生的冗余能力,机群系统高可用技
术就是通过冗余部件消除系统单一失效点,并对关键部件进行失效侦测,在系统部分失效情
况下使用失效接管(fail-over )技术将应用切换到备用部件继续运行,从而提供不间断的服
务。另一类则是引入智能化的预测机制,及时发现并定位系统中的故障隐患,并在系统崩溃
之前进行有计划的主动维护,从而避免无计划停机带来的巨大开销。相对于高可用系统的故
障 后 被 动 故 障 修 复 方 式 , 这 种 方 法 称 为 主 动 方 式 的 故 障 管 理 (Proactive fault
[2]~4] [5]
management) ,或自修复技术(Self-healing ) 。
根据可靠性理论,系统的失效机理是:组成系统的软件与硬件,在开发、设计与制造各
阶段产生的不可避免的缺陷(faults )在系统运行过程中会被“激活”,使系统出现我们不希
望或不可接受的内部状态——错误(error )。大量错误的积累最终导致系统的失效(failure )
[6] 。本文中“故障”同时具有“缺陷faults ”和“错误error ”两者的含义。相对于高可用系统
中现有的“失效检测”(Failure Detection )机制,本文报道的工作是为了在“失效”发生之
前,提供一种故障的快速准确发现机制,使我们能及时发现大规模机群的故障隐患,从而提
高机群系统的可用性。
1.1 研究背景
机群系统发展到今天,出现了以工业化量产部件构造的工业标准机群(Industry Standard
[10] 。工业标准机群是指使用大量标准化的工业部件COTS (Commodity off the shelf )
Cluster )
构造的机群系统,具有价格低廉,可扩展性高的特点,其出现使使用和拥有高性能计算机的
门槛大大降低。COST机群推动了对大规模机群系统(Large-Scale cluster system )的研制,
并取得了非常好的效果。如研制于 2004 年的曙光 4000A机群系统 [7],拥有 640 个双AMD64
处理器的SMP节点,其性能位于当时世界计算机排名(TOP500)的第十(23rd TOP500 List )。
随着机群规模的扩大,可靠性问题成为机群系统使用过程中的主要问题。以一个拥有
1000 个节点的机群系统为例:如果节点的平均无故障运行时间为 10000 小时,则整个机群
系统中平均每 10 小时就有节点出现故障。并且,随着机群系统越来越多地应用于一些关键
领域,失效带来的影响也日益突出,以网络营销平台A为例,每小时的失效开销
[8]
为$180,000 。
因此,大规模机群系统的可管理性和可靠性就成为大规模机群系统研制的核心技术。本
文的研究就是在大规模COST机群系统的可用性研究中,引入智能化的管理思想,其远景目
[9]
标就是使得大规模机群系统具有自修复、自优化、自保护和自配置的自我管理功能 。
1.2 可靠性相关研究
针对计算机系统可靠性的研究一直伴随着计算机技术的发展。一方面随着器件制造工艺
的改进,计算机的计算速度和可靠性日益增高。另一方面由于半导体器件本身固有的局限(例
如容易受高能粒子的影响而发生单粒子效应 [11][12] )、软件开发过程中不可避免的存在的缺
陷(这些缺陷会在系统运行过程中逐渐暴露出来,导致系统性能的降低,即软件老化现象)
[13][14] ,系统运行过程中的错误或故障是不可避免的。因此针对计算机系统可靠性的研究可
分为两个范畴,即避免错误和屏蔽错误 [
您可能关注的文档
- 有毒有害物质或元素一览表.pdf
- 有的学校把以往质量不高或不规范的的材料(.ppt
- 有的放矢,做好后期复习工作.ppt
- 有研半导体材料股份有限公司第三届董事会第三十五次会议决议公告暨召开2007.pdf
- 有线网络信息安全标准进展.doc
- 有色Petri 网在渗透测试中的应用.pdf
- 有色金属周报(铜锌) 刘碧沅.doc
- 有色金属加工及模具设计.doc
- 有色金属工业人才中心8嘌抵改汐金属工业人才中心培训部.doc
- 有色金属行业动态分析优于大势.pdf
- springbooot+vue基于java的房屋维修系统毕业论文.doc
- 中国消防救援学院《单片机系统实验》2023-2024学年第一学期期末试卷.doc
- 2025年溧阳纺织化学品项目申请.pptx
- 景区门票包销合同模板(3篇).docx
- 【股票技术指标学习指南】第七章第三节货币需要量的测算.doc
- 2025春 _ 人教版七年级英语下册【unit4】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit5】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit6】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit7】看音标写单词.doc
- 2025春 _ 人教版七年级英语下册【unit8】看音标写单词.doc
最近下载
- 明阳2.0MW主控(丹控)系统简介.ppt VIP
- 苏科版2024-2025学年九年级数学上册2.26几何中的隐形圆问题几种类型(全章方法梳理与题型分类讲解)(学生版+解析)(含答案解析).docx VIP
- 第九届“雄鹰杯”小动物医师技能大赛考试题库(含答案).pdf VIP
- 2025年交叉检查总结范本(2).docx VIP
- 2025年安徽省高考物理模拟卷(含解析).pdf VIP
- 第八届全国小动物医师技能大赛考试复习题库(含答案) .pdf VIP
- 年画的课件教学课件.pptx VIP
- Duke LS-P激光测距仪说明书.pdf
- 风电厂运行规程.pdf VIP
- “雄鹰杯”全国小动物医师技能大赛考试题库(660题) .pdf VIP
文档评论(0)