- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MPI并行程序的容错系统设计
摘要:为了确保并行程序能够在并行环境下准确地运行,须提高系统的可靠性,将容错技术应用到并行计算中。该文针对MPI并行程序提出一种容错系统的设计方法,采用检查点/卷回恢复技术、并添加故障检测功能,能够有效地处理节点失效故障和进程失效故障,在一定范围内实现容错,为MPI环境下进行大规模计算提供一个可使用的应用模型。
关键词:MPI并行程序;容错;检查点/卷回恢复;故障检测
中图分类号:TP302文献标识码:A文章编号:1009-3044(2011)04-0817-03
The Design of Fault-Tolerant System for Parallel Program Based on MPI
LI Fei-fei
(Northeast Dianli University, Jilin 132012, China)
Abstract: In order to ensure that the parallel program accurately runs on parallel environment, system reliability must be enhanced, so fault-tolerant technology is applied to parallel computing. In this paper, a design method of fault-tolerant system is proposed for parallel program based on MPI, which adoptes checkpoint/rollback recovery technology and adds a function of detecting failure. The fault-tolerant system can effectively handle node failure and processes failure in a certain range, which provide a practical model for large-scale calculation under MPI environment.
Key words: parallel program; MPI; fault-tolerant; checkpoint/rollback recovery; detecting failure
并行计算从本质上讲就是将多任务映射到多处理机上执行,或将多任务映射到具有特定拓扑结构的多节点机上求解,每台节点机启动一个进程。MPI(Message Passing Interface)消息传递接口[1]用于开发基于消息的并行程序,通过传递消息来协调各个并行执行的进程的步伐,并且利用交换信息和数据去控制执行并行计算任务,广泛应用于集群系统的并行程序开发环境。随着集群规模的不断扩大和节点机数的增加,异常关机、节点故障虽然不会经常但极有可能发生,但是现行的MPI标准中不包括任何机制去恢复意外失效的进程,系统发生故障时程序必须从头开始重新执行,从而引起计算时间的大量浪费[2]。因此,需要将容错技术引入到并行计算中,保证在发生各种异常事件或故障时,为用户提供持续的服务。
目前,并行程序的容错通常是基于检查点技术,再加入故障探测、处理以及自动恢复等辅助功能而形成的完整容错机制,在全局一致性状态下将进程的运行状态进行保存,当程序运行出现故障时,利用保存的进程状态对出错进程进行恢复,使计算任务从检查点处恢复执行,以减少计算损失,提高程序运行的可靠性和可用性。
1 容错相关内容
1.1 检查点技术
检查点技术[3]是指在程序运行时选择适当的时刻设置检查点,进行检查点操作,保存各个进程的运行状态到存储器中,系统如果在随后的运行过程中发生故障,所有进程停止计算卷回到上一次最近的检查点处,利用检查点处保存的正确状态去恢复出错的进程,从该检查点处重新计算。其过程如图1所示,这样可以避免由于故障而导致程序从头重新执行,因而能有效地减少计算损失。
在设置检查点时要保证所有进程处于全局一致性状态[4],所谓全局一致性状态,就是一个并行程序在无错执行期间所有进程的某种状态集合,当某个进程的状态表现为发送了一条消息时,在相对的另一个进程状态必须反映为接收该消息。为了发生故障时正确地卷回恢复,设置检查点时必须保证记录的状态是所有进程处在全局一致性状态下,避免产生多米诺效应。
如图2所示,黑色方块代表各个进程独立设置的检查点,当进程P2发出消息m7后发生故障,则卷回到检查点C处,卷回过程中
文档评论(0)