373-Parallel Computer Architecture并行计算机体系结构Lecture 15.pptVIP

373-Parallel Computer Architecture并行计算机体系结构Lecture 15.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Parallel Computer Architecture 并行计算机体系结构 Lecture 15 June 1, 2009 Wu junmin (jmwu@) Overview Review of Lec14 单一系统映象 作业管理 机群文件系统 机群举例 基本概念 机群是一组独立的计算机(节点)的集合体,通常有以下特征: 机群的各节点都是一个完整的系统:工作站,PC机或SMP机器; 互连网络通常使用商品化网络,如以太网、FDDI、ATM等; 网络接口与节点的I/O总线松耦合相连; 各节点通常有一个本地磁盘; 各节点有自己的完整的操作系统。 各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。 机群与分布式系统的区别: 机群继承了分布式系统的大部分知识 分布式系统通常是一个计算机的动物园,具有许多不同种类的计算机 机群通常是同构,耦合度较紧密,节点间互为信任关系 SMP、MPP、机群的比较一览表 机群的理想体系结构 机群的理想体系结构主要包括以下组成部分: 多个高性能节点:如PC、工作站、SMP等; 操作系统; 机群中间层:包括单一系统映像和系统可用性低层结构; 单一系统映像层提供单一接入点(Entry point)、单一文件层次结构、单一控制点和单一的作业管理系统 可用性层提供高可用性服务,包括: 硬件层; 操作系统层或附加层(Gluing layer); 应用层 高性能互连网络:如千兆位的以太网、Myrinet或Infiniband等; 快速通信协议和服务:如主动消息AM(Active Message)或快速消息FM(Fast Message); 并行编程环境和工具:如编译器,MPI,PVM等; 应用:包括串行应用和并行应用。 机群系统结构 可用性概念 系统RAS性能: 可靠性(Reliability):在没有故障的情况下一个系统能工作多长时间,表示为直到发生故障时的平均时间MTTF(Mean Time To Fail) 可用性(Availability):一个系统可以为用户所使用时间的百分比,即正常运行时间的百分比,可定义为MTTF/(MTTF+MTTR) ; 可维护性(Serviceability):指系统是否易于维护,表示为修复的平均时间MTTR(Mean Time To Repair) 。 一个计算机系统 的“运行-修复”周期 故障屏蔽(Failover) 当一组件发生故障时,故障屏蔽技术能允许系统的剩余部分承担故障组件的职责。包括错误检测、诊断、故障通知和故障恢复功能。 错误检测机制:用软件或硬件检测出错误的发生 错误覆盖范围:被检出的错误百分比 检测延迟:检测所花费的时间 诊断:确定并区分错误的类型。如短暂的硬件问题或软件缺陷,那么节点重启后可以重新回归机群;如果是永久的硬件问题,那就只能更换了。 恢复:向后或向前恢复 故障恢复 故障恢复有向后恢复和向前恢复两种方案。 向后恢复:进程周期性地将一个一致的状态(叫检查点)保存至稳定的外存中,在发生失效后,系统重配置以隔离失效组件,恢复至前一个检查点以继续正常操作,这也称为回卷。 向前恢复:如果执行时间很关键,例如在实时系统中,不可能容许回卷时间,则此时系统不回卷至前一个检查点,而是利用失效诊断信息重建一个有效的系统状态 。 向前恢复 回卷的前瞻性运行: 一个任务的初始拷贝由不同的处理器来运行,这些版本的结果在检查点进行表决(或比较), 如果表决结果是成功的,则我们可以获得一个储存在稳定存储器中的正确结果。随后继续在该正确的结果上运行。 如果表决结果失败,那么继续基于每个结果继续执行,同时在后备处理器上进行一次回卷执行,目的是获得正确的结果。随后我们只在稳定存储器上保存在正确的结果上的继续执行的结果。 检查点方法 每个进程都定期在稳定存储器中对状态设置检查点,假设它们都是独立进行的,称为局部状态 一个全局状态的定义是一系列局部状态的集合。 两种不好的全局状态: 丢失的消息:进程Pi的状态显示它给进程Pj发送了消息m,但是进程Pj并没有关于这个消息的记录。 孤儿消息:进程Pj的状态显示了它收到了一个来自进程Pi的消息m,但是进程Pi的状态显示它从来没有先Pj发送过m。 一致检查点 一致快照:在该检查点集合中包括一系列没有孤儿消息的局部检查点。 Strongly一致的检查点:没有孤儿和丢失的消息的局部检查点集合。这些检查点的中间时段,进程间没有信息流动 在上图中,指的是没有箭头从右到左穿过快照线。可以看出,快照a是一致的,因为箭头x从左到右穿过快照线;而快照c是不一致的,因为箭头y从右到左穿过快照线。 如果每个进程都在发送了一个消息后生成一个检查点,那么最近的检查点集合

文档评论(0)

小玉儿 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档