一种新型高效的算法级容错技术及实现.pdfVIP

一种新型高效的算法级容错技术及实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新型高效的算法级容错技术及实现

第 9 卷第 6 期 信息技术快报 Vol.9 No.6 Information Technology Letter Nov. 2011 一种新型高效的算法级容错技术及实现 王睿 姚二林 陈明宇 谭光明 摘要 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点 (checkpoint )方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops ) 规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术 依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非 停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的 数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为 了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL) ,并评估 了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。 1 v 关键词 高性能计算;检查点;算法容错;Exaflops 3 5 1 引言 0 0 0 1.1 容错技术研究的意义 . 6 0 随着高性能计算机系统计算能力的不断增加,系统的规模也随时间呈指数上升趋势。最 6 新的超级计算机排行(Top500 )统计数据显示,目前世界上最快的超级计算机含有的处理器 1 核数已达到 10 万级别[2] 。按照当前的技术趋势发展,下一代 E 级计算机的规模将突破 100 0 2 万个核[1] 。在构建下一代超级计算机的同时,系统的可靠性问题将越来越突出。 : v i 一方面,随着系统规模的增大,系统的平均中断间隔时间(mean-time-to-interrupt, MTTI ) X 越来越短。卡内基梅隆大学的 吉普森(Garth Gibson )等人基于对洛斯阿拉莫斯国家实验室 a n (Los Alamos National Laboratory )十年内超级计算机失效数据的分析,发现超级计算机系 i 统的出错频率正比于其中包含的处理器个数[11, 12],如图 1 所示。 h c 间 时 隔 ) 量 I 间 B 数 断 T M 板 中 ( 插 均 平 6 7 8 9 0 1 2 3 4 5 6 7 8 6 7 8 9 0 1 2 3 4 5 6 7 8 0 0 0 0 1 1 1 1

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档