网站大量收购独家精品文档,联系QQ:2885784924

第三章并行计算机的体系结构.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章并行计算机的体系结构

第3章 并行计算机的体系结构 了解并行计算机的体系结构是开展并行计算研究的基础。为了设计一个高效率的并行算法,实现一个高效率的并行程序,需要对并行计算机体系结构有一定的了解。本章从入门角度介绍组成并行计算机的各个部分,力争使得读者对并行计算机有一个初步的认识,为深入学习并行算法的设计和并行程序的编制奠定基础。 当前,并行计算机的组成主要有三个要素:如图3.1 和图3.2 所示, 结点(node)。每个结点包含一个或多个CPU,这些CPU通过HUB或全互联交叉开关相互联接,并共享内存,也可以直接与外部设备进行I/O操作; 结点集是并行计算机的主要处理部件。 内存(memory)。内存由多个存储模块组成,这些模块可以如图3.1 所示,与结点对称地分布在互联网络的两侧(SMP).2所示,分布于各个结点的内部(分布式存储)。它们合起来构成了并行计算机的存储体系。 互联网络(interconnect network)。所有结点通过互联网络相互连接、相互通信。 图3.1 并行计算机体系结构示意图:内存模块与结点分离 图3.2 并行计算机体系结构示意图:内存模块位于结点内部 下面分别从结点的基本结构、内存和互连网络三个方面来简要讨论并行计算机的体系结构。 3.1 结点的基本结构 结点是构成并行计算机的最基本单位。机群结点机一般为PC、工作站、SMP或刀片模块,其基本组成为处理器、内存和缓存、磁盘、系统总线等部件。20 多年来,微处理器结构(RISC、CISC、VLIW CPU 比20 年前的超级计算机功能更为强大。 以图3.2 为例,一个结点包含2 个微处理器(CPU),并行程序执行时,程序分派的各个进程将并行地运行在结点的各个微处理器上。每个微处理器拥有局部的二级高速缓存(L2 cache 在cpu外部)。L2 cache 是现代高性能微处理器用于弥补日益增长的CPU 执行速度和内存访问速度差距(访存墙)而采取的关键技术(部件)。它按cache 映射策略缓存从内存取到的数据,同时为CPU 内部的一级cache 提供计算数据。CPU 内部的一级cache为寄存器提供数据,寄存器为逻辑运算部件提供数据。 在结点内部,多个微处理器通过集线器(HUB)相互连接,并共享连接在集线器上的内存模块和I/O 模块、以及路由器(router)。当前,集线器可以提供给微处理器每秒数十GB 的访存带宽和一百个纳秒之内的访存延迟,以及最快每秒6.4GB 的互联网络访问带宽。 当处理器个数较少时,例如8–16个以内,集线器一般采用高速全交互交叉开关,或者高带宽总线完成;如果处理器个数较多,例如数十个,则集线器就等同于并行计算机的互联网络。有关这些互联的拓扑结构将在3.3节中介绍。 随着处理器速度的日益增长,结点内配置的内存容量也在增长。传统地,1个单位的浮点运算速度配1个字节的内存单元,是比较合理的。但是,考虑到日益增长的内存墙的影响,这个比例可以适当缩小。例如,1个单位的浮点运算速度配0.4个字节的内存单元。如果以单个微处理器速度为每秒60 亿次计算,包含4个处理器的单结点的峰值运算速度可达240亿次,内存空间需要8GB 以上。于是,在当前并行计算机的结点内,一般需要采用64 位的微处理器,才能操作如此大的内存空间。 下面给出几种典型机器以及结点内部结构介绍,加深对结点结构的认识。 1.SGI Origin 2000结点 SGI Origin 2000并行计算机体系结构示意图如图3.3: 图3.3 SGI Origin 2000并行计算机体系结构示意图 SGI Origin 2000并行计算机的结点结构如下: 结点板。结点板(也就是Origin2000的主板)是Origin2000系统的基本构成模块。Origin8个机柜,每个机柜含8个结点, 结点是构成Origin 2000的基本单位,它包含: 1-2个主频为195MHz或250MHz的MIPS R10000 CPU,CPU含4MB的二级Cache; 内存512MB-4GB,分主存和目录内存两类,后者主要用于保持结点间的Cache数据一致性; 集线器(HUB)含4个端口:CPU端口、内存端口、XIO端口和Cray Link互联网络端口,采用交叉开关实现两个CPU、内存、输入输出和互联网络路由器(router)之间的全互联,分别提供780MB/Sec、780MB/Sec、1.5GB/Sec、1.5GB/Sec的传送速度。 2.全对称共享存储多处理机系统:曙光1号 曙光1号是一台全对称紧耦合共享存储的多处理机系统,支持中细度并行计算,实现多线程技术,采用RISC和标准总线连接方法,系统配置灵活。采用SNIX(Symmetric UNIX)操作系统,并在其上提供大量的UNIX实用程序﹑编程环境﹑用

文档评论(0)

tianma2015 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档