分布式与云计算系统第2章汇总.ppt

下载文档 降价啦

12
0
约5.71千字
约 66页
2017-05-12 发布于湖北
举报
版权申诉
保障服务

分布式与云计算系统第2章汇总.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式与云计算系统第2章汇总,云计算与分布式系统,分布式系统和云计算,分布式系统云计算,云计算分布式文件系统,分布式计算与云计算,分布式云计算,云计算和分布式计算,分布式和云计算的关系,云计算分布式存储

Computer School, NUDT. Spring, 2013 Resource Sharing in Cluster of Computers 节点结构和MPP封装:IBM BlueGene/L Supercomputer: The World Fastest Message-Passing MPP built in 2005 CUDA并行编程 CUDA（Compute Unified Device Architecture,计算统一设备体系结构）由NVIDIA开发，提供并行计算体系结构。CUDA是NVIDIA GPU中的计算引擎，允许开发者通过标准程序语言访问。程序员可以使用NVIDIA扩展和受限的CUDA C。CUDA C通过PathScale Open64 C编译器编译，可以在大量GPU核上并行执行。例2.4体现了在并行处理中使用CUDA C的好处。管理级该级处理用户应用程序，并且提供作业管理系统。编程级该级提供单一文件层次（NFS、xFS、AFS、Proxy）和分布式共享内存实现级该级支持单一进程空间、检查点机制、进程迁移和单一I/O空间。 A proposed Nivdia GPU chip processor architecture with 128 cores (160 GFlpos each) plus 8 latency processors (LP) connected to 1024 SRAMs (L2 caches) by a NoC, where MS are the memory controllers connecting to off-chip DRAMS and NI is the network interface to next level of network (Courtesy of Bill Dally, reprint with permission [10] ). (Courtesy of Bill Dally, 2011) The architecture of a GPU cluster built with a hierarchical network of processor chips (GPUs) that can deliver 2.6 PFlops per cabinet. It takes at least N = 400 cabinets to achieve the desired PFlops or EFlops performance. (Courtesy of Bill Dally, reprint with permission [10] ). 图2-16 在连接到集群中4个主机的12个分布式磁盘之上具有单一I/O空间的分布式RAID体系结构图2-17 在作业管理、编程和实现级上集群化中间件的关系 冗余高可用性可靠性根据系统不发生故障的运行时间衡量。可用性表示系统对用户可用的时间百分比，即系统正常运行的时间百分比。可服务性与服务系统的容易程度相关，包括硬件和软件维护、修复、升级等。图2-19 SMP和三个集群中的单点失效（SPF），由a到d，其中冗余越大，消除的单点失效也越多 容错集群配置热备份服务器集群只有主要节点积极完成所有有用的工作。备份节点启动（热）和运行一些监控程序来发送与接收心跳信号以检测主要节点的状态，但并不积极运行其余有价值的工作。主动接管集群多个服务器节点的体系结构是对称的。两个服务器都是主要的，正常完成有价值的任务。两个服务器节点通常都支持故障切换和恢复。故障切换集群当一个组件失效时，该技术允许剩余系统接管之前由失效组件提供的服务。故障切换机制必须提供一些功能，如失效诊断、失效通知和失效恢复。检查点和恢复技术检查点和恢复这两种技术必须共同发展，才能提高集群系统的可用性。某个进程周期性地保存执行程序的状态至稳定存储器，系统在失效后能够根据这些信息得以恢复。每一个被保存的程序状态称为检查点。包含被保存状态的磁盘文件称为检查点文件。虽然目前所有的检查点软件在磁盘中保存程序状态，但是使用节点内存替代稳定存储器来提高性能还处在研究阶段。 2.4 集群作业和资源管理集群作业调度方法集群作业可能在一个指定的时间（日历调度），或者在特定事件发生（事件调度）时被调度运行。根据提交时间、资源节点、执行时间、内存、磁盘、作业类型及用户认证的优先级，作业被调度。静态优先级指的是根据预定的方案，作业被分配的优先级。为用户分配不同的优先级，而作业的动态优先级可能会随时间发生变化。图2-22 用于集群节点上作业调度的瓷砖式覆盖技术减少了整体时间，因此增