第 9 卷第 6 期 信息技术快报 Vol.9 No.6
Information Technology Letter Nov. 2011
一种新型高效的算法级容错技术及实现
王睿 姚二林 陈明宇 谭光明
摘要 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点
(checkpoint )方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops )
规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术
依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非
停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的
数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为
了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL) ,并评估
了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。
1
v 关键词 高性能计算;检查点;算法容错;Exaflops
3
2 1 引言
2
0
0 1.1 容错技术研究的意义
.
3
0 随着高性能计算机系统计算能力的不断增加,系统的规模也随时间呈指数上升趋势。最
7 新的超级计算机排行(Top500 )统计数据显示,目前世界上最快的超级计算机含有的处理器
1 核数已达到 10 万级别[2] 。按照当前的技术趋势发展,下一代 E 级计算机的规模将突破 100
0
2 万个核[1] 。在构建下一代超级计算机的同时,系统的可靠性问题将越来越突出。
:
v
i 一方面,随着系统规模的增大,系统的平均中断间隔时间(mean-time-to-interrupt, MTTI )
X 越来越短。卡内基梅隆大学的 吉普森(Garth Gibson )等人基于对洛斯阿拉莫斯国家实验室
a
n (Los Alamos National Laboratory )十年内超级计算机失效数据的分析,发现超级计算机系
i 统的出错频率正比于其中包含的处理器个数[11, 12],如图 1 所示。
h
c
间
时
隔 )
量 I
间 B
数 断 T
M
板 中 (
插 均
平
6 7 8 9 0 1 2 3 4 5 6 7 8 6 7 8 9 0 1 2 3 4 5 6 7 8
0 0 0 0 1 1 1 1
原创力文档

文档评论(0)