一种新型高效的算法级容错技术及实现.PDF

第 9 卷第 6 期 信息技术快报 Vol.9 No.6 Information Technology Letter Nov. 2011 一种新型高效的算法级容错技术及实现 王睿 姚二林 陈明宇 谭光明 摘要 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点 (checkpoint )方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops ) 规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术 依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非 停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的 数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为 了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL) ,并评估 了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。 1 v 关键词 高性能计算;检查点;算法容错;Exaflops 3 2 1 引言 2 0 0 1.1 容错技术研究的意义 . 3 0 随着高性能计算机系统计算能力的不断增加,系统的规模也随时间呈指数上升趋势。最 7 新的超级计算机排行(Top500 )统计数据显示,目前世界上最快的超级计算机含有的处理器 1 核数已达到 10 万级别[2] 。按照当前的技术趋势发展,下一代 E 级计算机的规模将突破 100 0 2 万个核[1] 。在构建下一代超级计算机的同时,系统的可靠性问题将越来越突出。 : v i 一方面,随着系统规模的增大,系统的平均中断间隔时间(mean-time-to-interrupt, MTTI ) X 越来越短。卡内基梅隆大学的 吉普森(Garth Gibson )等人基于对洛斯阿拉莫斯国家实验室 a n (Los Alamos National Laboratory )十年内超级计算机失效数据的分析,发现超级计算机系 i 统的出错频率正比于其中包含的处理器个数[11, 12],如图 1 所示。 h c 间 时 隔 ) 量 I 间 B 数 断 T M 板 中 ( 插 均 平 6 7 8 9 0 1 2 3 4 5 6 7 8 6 7 8 9 0 1 2 3 4 5 6 7 8 0 0 0 0 1 1 1 1

文档评论(0)

1亿VIP精品文档

相关文档