- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新型高效的算法级容错技术及实现
第 9 卷第 6 期 信息技术快报 Vol.9 No.6
Information Technology Letter Nov. 2011
一种新型高效的算法级容错技术及实现
王睿 姚二林 陈明宇 谭光明
摘要 随着高性能计算系统规模的不断扩大,节点失效愈加频发。传统的容错技术大都基于检查点
(checkpoint )方式。但是,检查点技术的开销随着系统规模的扩大而不断增加,在百亿亿次(Exaflops )
规模下其容错效率难以满足系统需求。算法失效恢复技术相比检查点方式具有更高的效率。然而,该技术
依然基于停等模式。对于大规模系统,停等模式在很大程度上会影响程序的并行效率。本文提出了一种非
停等的算法级容错策略——热替换策略。在程序运行过程中若发生节点失效,不用停等恢复失效节点上的
数据,而用冗余节点替换失效节点,使计算能继续进行。最终的正确结果可以通过一个线性变换求出。为
了论证方案的有效性,我们结合MPICH 的容错特性实现了容错的High Performance Linpack (HPL) ,并评估
了方案的性能。实验结果表明,即使在小规模下,我们的方案的性能也明显优于算法失效恢复技术。
1
v 关键词 高性能计算;检查点;算法容错;Exaflops
3
5 1 引言
0
0
0 1.1 容错技术研究的意义
.
6
0 随着高性能计算机系统计算能力的不断增加,系统的规模也随时间呈指数上升趋势。最
6 新的超级计算机排行(Top500 )统计数据显示,目前世界上最快的超级计算机含有的处理器
1 核数已达到 10 万级别[2] 。按照当前的技术趋势发展,下一代 E 级计算机的规模将突破 100
0
2 万个核[1] 。在构建下一代超级计算机的同时,系统的可靠性问题将越来越突出。
:
v
i 一方面,随着系统规模的增大,系统的平均中断间隔时间(mean-time-to-interrupt, MTTI )
X 越来越短。卡内基梅隆大学的 吉普森(Garth Gibson )等人基于对洛斯阿拉莫斯国家实验室
a
n (Los Alamos National Laboratory )十年内超级计算机失效数据的分析,发现超级计算机系
i 统的出错频率正比于其中包含的处理器个数[11, 12],如图 1 所示。
h
c
间
时
隔 )
量 I
间 B
数 断 T
M
板 中 (
插 均
平
6 7 8 9 0 1 2 3 4 5 6 7 8 6 7 8 9 0 1 2 3 4 5 6 7 8
0 0 0 0 1 1 1 1
您可能关注的文档
- 医院适宜规模研究-中国卫生经济学会.doc
- 医学装备招标技术需求最终.doc
- 医疗应用指引-德州仪器.pdf
- 医疗物联网的发展现状及关键技术探索-中国医院数字图书馆.pdf
- 伊赛牛肉832910全产业链牛肉制品龙头企业推荐首次-新三板.pdf
- 一株海洋细菌对中肋骨条藻的溶解效应及其溶藻特性.pdf
- 一组混沌保密通信系统的理论探讨-东南大学学报.pdf
- 一株促进丹参生长和提高丹酚酸含量的活性内生真菌.pdf
- 一种有效实现ic时序收敛的方法-微电子学.pdf
- 一种用于流水线模数转换器的电容失配校准方法journalof.pdf
- 一种新型容错有限状态机的设计研究-自动化学报.pdf
- 一种新型的同塔双回输电线路工频阻抗参数测量方法-电工技术学报.pdf
- 一种新的通用高阶ota一c溏波器的设计.pdf
- 一种新混沌系统的动力学分析及同步和反同步-计算机应用研究.pdf
- 一种新型的抑制地线反弹噪声的tri-modemtcmos电路结构-微电子学.pdf
- 一种新的复杂物体的快速消隐技术-东南大学学报.pdf
- 一种新的cmos负阻器件.pdf
- 一种提取频移键控信号的独立分量分析算法-太赫兹科学与电子信息学报.pdf
- 一种无纹波频闪线性高压led驱动方案org8510.doc
- 一种融合多种用户行为的协同过滤推荐算法-计算机科学.pdf
文档评论(0)