373-Parallel Computer Architecture并行计算机体系结构Lecture 15.pptVIP

下载本文档

10
0
约 68页
2017-09-28 发布于陕西
举报
版权申诉

373-Parallel Computer Architecture并行计算机体系结构Lecture 15.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Parallel Computer Architecture并行计算机体系结构Lecture 15 June 1, 2009 Wu junmin (jmwu@) Overview Review of Lec14 单一系统映象作业管理机群文件系统机群举例基本概念机群是一组独立的计算机（节点）的集合体，通常有以下特征：机群的各节点都是一个完整的系统：工作站，PC机或SMP机器；互连网络通常使用商品化网络，如以太网、FDDI、ATM等；网络接口与节点的I/O总线松耦合相连；各节点通常有一个本地磁盘；各节点有自己的完整的操作系统。各节点除了可以作为一个单一的计算资源供交互式用户使用外，还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。机群与分布式系统的区别：机群继承了分布式系统的大部分知识分布式系统通常是一个计算机的动物园，具有许多不同种类的计算机机群通常是同构，耦合度较紧密，节点间互为信任关系 SMP、MPP、机群的比较一览表机群的理想体系结构机群的理想体系结构主要包括以下组成部分：多个高性能节点：如PC、工作站、SMP等；操作系统；机群中间层：包括单一系统映像和系统可用性低层结构；单一系统映像层提供单一接入点（Entry point）、单一文件层次结构、单一控制点和单一的作业管理系统可用性层提供高可用性服务，包括：硬件层；操作系统层或附加层(Gluing layer)；应用层高性能互连网络：如千兆位的以太网、Myrinet或Infiniband等；快速通信协议和服务：如主动消息AM（Active Message）或快速消息FM（Fast Message）；并行编程环境和工具：如编译器，MPI，PVM等；应用：包括串行应用和并行应用。机群系统结构可用性概念系统RAS性能：可靠性（Reliability）：在没有故障的情况下一个系统能工作多长时间，表示为直到发生故障时的平均时间MTTF（Mean Time To Fail）可用性（Availability）：一个系统可以为用户所使用时间的百分比，即正常运行时间的百分比，可定义为MTTF/(MTTF+MTTR) ；可维护性（Serviceability）：指系统是否易于维护，表示为修复的平均时间MTTR（Mean Time To Repair）。一个计算机系统的“运行-修复”周期故障屏蔽（Failover）当一组件发生故障时，故障屏蔽技术能允许系统的剩余部分承担故障组件的职责。包括错误检测、诊断、故障通知和故障恢复功能。错误检测机制：用软件或硬件检测出错误的发生错误覆盖范围：被检出的错误百分比检测延迟：检测所花费的时间诊断：确定并区分错误的类型。如短暂的硬件问题或软件缺陷，那么节点重启后可以重新回归机群；如果是永久的硬件问题，那就只能更换了。恢复：向后或向前恢复故障恢复故障恢复有向后恢复和向前恢复两种方案。向后恢复：进程周期性地将一个一致的状态（叫检查点）保存至稳定的外存中，在发生失效后，系统重配置以隔离失效组件，恢复至前一个检查点以继续正常操作，这也称为回卷。向前恢复：如果执行时间很关键，例如在实时系统中，不可能容许回卷时间，则此时系统不回卷至前一个检查点，而是利用失效诊断信息重建一个有效的系统状态。向前恢复回卷的前瞻性运行：一个任务的初始拷贝由不同的处理器来运行，这些版本的结果在检查点进行表决（或比较），如果表决结果是成功的，则我们可以获得一个储存在稳定存储器中的正确结果。随后继续在该正确的结果上运行。如果表决结果失败，那么继续基于每个结果继续执行，同时在后备处理器上进行一次回卷执行，目的是获得正确的结果。随后我们只在稳定存储器上保存在正确的结果上的继续执行的结果。检查点方法每个进程都定期在稳定存储器中对状态设置检查点，假设它们都是独立进行的，称为局部状态一个全局状态的定义是一系列局部状态的集合。两种不好的全局状态：丢失的消息：进程Pi的状态显示它给进程Pj发送了消息m，但是进程Pj并没有关于这个消息的记录。孤儿消息：进程Pj的状态显示了它收到了一个来自进程Pi的消息m，但是进程Pi的状态显示它从来没有先Pj发送过m。一致检查点一致快照：在该检查点集合中包括一系列没有孤儿消息的局部检查点。 Strongly一致的检查点：没有孤儿和丢失的消息的局部检查点集合。这些检查点的中间时段，进程间没有信息流动在上图中，指的是没有箭头从右到左穿过快照线。可以看出，快照a是一致的，因为箭头x从左到右穿过快照线；而快照c是不一致的，因为箭头y从右到左穿过快照线。如果每个进程都在发送了一个消息后生成一个检查点，那么最近的检查点集合