一种新型高效的算法级容错技术及实现.PDF

下载文档 降价啦

1
0
约3万字
约 11页
2019-06-15 发布于天津
举报
保障服务

一种新型高效的算法级容错技术及实现.PDF

第 9 卷第 6 期信息技术快报 Vol.9 No.6 Information Technology Letter Nov. 2011 一种新型高效的算法级容错技术及实现王睿姚二林陈明宇谭光明摘要随着高性能计算系统规模的不断扩大，节点失效愈加频发。传统的容错技术大都基于检查点（checkpoint ）方式。但是，检查点技术的开销随着系统规模的扩大而不断增加，在百亿亿次（Exaflops ）规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而，该技术依然基于停等模式。对于大规模系统，停等模式在很大程度上会影响程序的并行效率。本文提出了一种非停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效，不用停等恢复失效节点上的数据，而用冗余节点替换失效节点，使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为了论证方案的有效性，我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL) ，并评估了方案的性能。实验结果表明，即使在小规模下，我们的方案的性能也明显优于算法失效恢复技术。 1 v 关键词高性能计算；检查点；算法容错；Exaflops 3 2 1 引言 2 0 0 1.1 容错技术研究的意义 . 3 0 随着高性能计算机系统计算能力的不断增加，系统的规模也随时间呈指数上升趋势。最 7 新的超级计算机排行（Top500 ）统计数据显示，目前世界上最快的超级计算机含有的处理器 1 核数已达到 10 万级别[2] 。按照当前的技术趋势发展，下一代 E 级计算机的规模将突破 100 0 2 万个核[1] 。在构建下一代超级计算机的同时，系统的可靠性问题将越来越突出。 : v i 一方面，随着系统规模的增大，系统的平均中断间隔时间（mean-time-to-interrupt, MTTI ） X 越来越短。卡内基梅隆大学的吉普森（Garth Gibson ）等人基于对洛斯阿拉莫斯国家实验室 a n （Los Alamos National Laboratory ）十年内超级计算机失效数据的分析，发现超级计算机系 i 统的出错频率正比于其中包含的处理器个数[11, 12]，如图 1 所示。 h c 间时隔 ) 量 I 间 B 数断 T M 板中 ( 插均平 6 7 8 9 0 1 2 3 4 5 6 7 8 6 7 8 9 0 1 2 3 4 5 6 7 8 0 0 0 0 1 1 1 1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种新型高效的算法级容错技术及实现.PDF