面向并行迭代计算模式支持负载均衡的检查点技术研究与实现.pptVIP

  • 8
  • 0
  • 约8.49千字
  • 约 44页
  • 2018-05-28 发布于福建
  • 举报

面向并行迭代计算模式支持负载均衡的检查点技术研究与实现.ppt

面向并行迭代计算模式支持负载均衡的检查点技术研究与实现

关键问题及拟解决的方法 检查点整体流程 检查点开始 是否有负载平衡? 否 是 调用fork() 父进程返回继续执行计算 子进程保存检查点数据 负载平衡 数据处理 压缩检查点数据 (snappy) 保存压缩后的数据 0号MPI进程 保存本次检查点信息 (版本信息、 总MPI进程数、 第n次检查点等) 子进程退出 检查点结束 关键问题及拟解决的方法 自动化检查点 应用运行过程中可能遇到的故障类型 应用故障:应用进程异常退出 系统故障:结点遇到操作系统故障 整个系统一个管理守护进程(gctrl),每个结点一个本地守护进程(dcrd) gctrl定期向所有的dcrd发送查询消息 dcrd收到查询消息后,向本结点应用进程发送NULL信号探测目标进程状态,然后回复gctrl本结点是否发生应用故障 gctrl认为在指定时间内没有收到回复的结点发生系统故障 关键问题及拟解决的方法 自动化检查点(故障检测流程图) 向所有dcrd广播 查询命令 等待一定时间 是否收到所有dcrd的正常回复? 自动重启应用 否 是 管理守护进程 (gctrl) 收到查询命令 所有相关进程是否正常? 回复gctrl应用正常 回复gctrl应用故障 状态查询结束 是 否 本地守护进程 (dcrd) 关键问题及拟解决的方法 自动化检查点 自动化重启应用 如何获取重启参数? 用户预先定义重启命令和参数 有结点故障时,如何

文档评论(0)

1亿VIP精品文档

相关文档