分布式与云计算系统第2章教案解析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Computer School, NUDT. Spring, 2013 Resource Sharing in Cluster of Computers 节点结构和MPP封装:IBM BlueGene/L Supercomputer: The World Fastest Message-Passing MPP built in 2005 CUDA并行编程 CUDA(Compute Unified Device Architecture,计算统一设备体系结构)由NVIDIA开发,提供并行计算体系结构。CUDA是NVIDIA GPU中的计算引擎,允许开发者通过标准程序语言访问。程序员可以使用NVIDIA扩展和受限的CUDA C。CUDA C通过PathScale Open64 C编译器编译,可以在大量GPU核上并行执行。 管理级 该级处理用户应用程序,并且提供作业管理系统。 编程级 该级提供单一文件层次(NFS、xFS、AFS、Proxy)和分布式共享内存 实现级 该级支持单一进程空间、检查点机制、进程迁移和单一I/O空间。 Tianhe-1A 天河一号A 14336颗Intel Xeon X5670 2.93GHz六核心处理器 7168块NVIDIA Tesla M2050高性能计算卡 内存总容量98TB ; 点点通信带宽40Gbps ; 共享磁盘总容量为1PB SSI的最终目标是使得集群如同台式计算机一样易于使用,SSI额外特征: 单一作业管理系统 所有集群作业能够由任意节点提交到单一作业管理系统。 单一用户接口 用户通过单一图形界面使用集群。 单一进程空间 各节点的所有用户进程形成单一进程空间,并且共享统一进程认证机制。 SSI集群化的中间件 在集群应用的三个层次上,中间件支持各种SSI特征。 图2-17 在作业管理、编程和实现级上集群化中间件的关系 冗余高可用性 可靠性根据系统不发生故障的运行时间衡量。 可用性表示系统对用户可用的时间百分比,即系统正常运行的时间百分比。 可服务性与服务系统的容易程度相关,包括硬件和软件维护、修复、升级等。 图2-19 SMP和三个集群中的单点失效(SPF),由a到d,其中冗余越大,消除的单点失效也越多 容错集群配置 热备份服务器集群 只有主要节点积极完成所有有用的工作。备份节点启动(热)和运行一些监控程序来发送与接收心跳信号以检测主要节点的状态,但并不积极运行其余有价值的工作。 主动接管集群 多个服务器节点的体系结构是对称的。两个服务器都是主要的,正常完成有价值的任务。两个服务器节点通常都支持故障切换和恢复。 故障切换集群 当一个组件失效时,该技术允许剩余系统接管之前由失效组件提供的服务。故障切换机制必须提供一些功能,如失效诊断、失效通知和失效恢复。 检查点和恢复技术 检查点和恢复这两种技术必须共同发展,才能提高集群系统的可用性。 某个进程周期性地保存执行程序的状态至稳定存储器,系统在失效后能够根据这些信息得以恢复。 每一个被保存的程序状态称为检查点。包含被保存状态的磁盘文件称为检查点文件。虽然目前所有的检查点软件在磁盘中保存程序状态,但是使用节点内存替代稳定存储器来提高性能还处在研究阶段。 2.4 集群作业和资源管理 集群作业调度方法 集群作业可能在一个指定的时间(日历调度),或者在特定事件发生(事件调度)时被调度运行。 根据提交时间、资源节点、执行时间、内存、磁盘、作业类型及用户认证的优先级,作业被调度。 静态优先级指的是根据预定的方案,作业被分配的优先级。 为用户分配不同的优先级,而作业的动态优先级可能会随时间发生变化。 图2-22 用于集群节点上作业调度的瓷砖式覆盖技术减少了整体时间,因此增加了作业吞吐量 集群作业管理系统 作业管理也称为负载管理或负载共享。作业管理系统(Job Management System,JMS)具有三部分: 用户服务器:提交用户作业至一个或多个队列,为每个作业指定资源需求,将作业从队列中删除,以及询问作业或队列的状态。 作业调度器:根据作业类型、资源需求、资源可用性和调度策略,执行任务调度和排队。 资源管理器:分配和监控资源,执行调度策略,以及收集统计信息。 集群计算的负载共享设备(LSF) LSF是平台计算中的商用负载管理系统。 在并行作业和串行作业中,LSF强调作业管理和负载共享。 它还支持检查点、可用性、负载迁移和单系统镜像。 LSF具有高扩展性,并且能够支持上千个节点的集群。 LSF服务于各种UNIX和Windows/NT平台。目前,LSF不仅在集群中使用,也在网格和云中使用。 MOSIX: Linux集群和云的操作系统 MOSIX由希伯来大学在1977年开发,是一个分布式操作

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档