机群系统可靠性研究的新思路主动故障检测机制研究.pdfVIP

机群系统可靠性研究的新思路主动故障检测机制研究.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机群系统可靠性研究的新思路主动故障检测机制研究

机群系统可靠性研究的新思路 —主动故障检测机制研究 武林平 孟丹 詹剑锋 高文 1 引言 随着机群系统规模的扩大与复杂化,可靠性与可用性问题已成为制约机群系统应用的重 要障碍。目前,针对机群系统可靠性与可用性的研究方法主要分为两类。一类是以部件冗余、 失效侦测(Failure Detection )及恰当的恢复机制为基础,以提供不间断服务为目的的高可用 技术 [1] 。机群系统的节点都是完整的计算机,因此具有天生的冗余能力,机群系统高可用技 术就是通过冗余部件消除系统单一失效点,并对关键部件进行失效侦测,在系统部分失效情 况下使用失效接管(fail-over )技术将应用切换到备用部件继续运行,从而提供不间断的服 务。另一类则是引入智能化的预测机制,及时发现并定位系统中的故障隐患,并在系统崩溃 之前进行有计划的主动维护,从而避免无计划停机带来的巨大开销。相对于高可用系统的故 障 后 被 动 故 障 修 复 方 式 , 这 种 方 法 称 为 主 动 方 式 的 故 障 管 理 (Proactive fault [2]~4] [5] management) ,或自修复技术(Self-healing ) 。 根据可靠性理论,系统的失效机理是:组成系统的软件与硬件,在开发、设计与制造各 阶段产生的不可避免的缺陷(faults )在系统运行过程中会被“激活”,使系统出现我们不希 望或不可接受的内部状态——错误(error )。大量错误的积累最终导致系统的失效(failure ) [6] 。本文中“故障”同时具有“缺陷faults ”和“错误error ”两者的含义。相对于高可用系统 中现有的“失效检测”(Failure Detection )机制,本文报道的工作是为了在“失效”发生之 前,提供一种故障的快速准确发现机制,使我们能及时发现大规模机群的故障隐患,从而提 高机群系统的可用性。 1.1 研究背景 机群系统发展到今天,出现了以工业化量产部件构造的工业标准机群(Industry Standard [10] 。工业标准机群是指使用大量标准化的工业部件COTS (Commodity off the shelf ) Cluster ) 构造的机群系统,具有价格低廉,可扩展性高的特点,其出现使使用和拥有高性能计算机的 门槛大大降低。COST机群推动了对大规模机群系统(Large-Scale cluster system )的研制, 并取得了非常好的效果。如研制于 2004 年的曙光 4000A机群系统 [7],拥有 640 个双AMD64 处理器的SMP节点,其性能位于当时世界计算机排名(TOP500)的第十(23rd TOP500 List )。 随着机群规模的扩大,可靠性问题成为机群系统使用过程中的主要问题。以一个拥有 1000 个节点的机群系统为例:如果节点的平均无故障运行时间为 10000 小时,则整个机群 系统中平均每 10 小时就有节点出现故障。并且,随着机群系统越来越多地应用于一些关键 领域,失效带来的影响也日益突出,以网络营销平台A为例,每小时的失效开销 [8] 为$180,000 。 因此,大规模机群系统的可管理性和可靠性就成为大规模机群系统研制的核心技术。本 文的研究就是在大规模COST机群系统的可用性研究中,引入智能化的管理思想,其远景目 [9] 标就是使得大规模机群系统具有自修复、自优化、自保护和自配置的自我管理功能 。 1.2 可靠性相关研究 针对计算机系统可靠性的研究一直伴随着计算机技术的发展。一方面随着器件制造工艺 的改进,计算机的计算速度和可靠性日益增高。另一方面由于半导体器件本身固有的局限(例 如容易受高能粒子的影响而发生单粒子效应 [11][12] )、软件开发过程中不可避免的存在的缺 陷(这些缺陷会在系统运行过程中逐渐暴露出来,导致系统性能的降低,即软件老化现象) [13][14] ,系统运行过程中的错误或故障是不可避免的。因此针对计算机系统可靠性的研究可 分为两个范畴,即避免错误和屏蔽错误 [

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档