第1章3w200411月15.pptVIP

下载本文档

3
0
约3.57千字
约 49页
2016-12-23 发布于重庆
举报

第1章3w200411月15.ppt

并行处理与体系结构第一章并行计算机模型 ?1 计算技术的现状 ?2 多处理机和多计算机 ?3 多向量机和SIMD计算机 ?4 并行计算机的抽象模型 ?5 可扩展的范围和设计 ?2 多处理机和多计算机一、共享存储型多处理机 1. UMA模型 UMA --Uniform Memory Access 结构和特点：紧耦合系统(tightly coupled system) 多处理机由于高度资源共享系统的互连采用总线、交叉开关、或多级网络形式对称(symmetric)多处理机当所有处理机都能同样访问所有外围设备时。例 Fortran程序可在单处理机上顺序执行，分析CPU的运行时间，假设条件：所有数组A(I)，B(I)，C(I)都有N个元素；分析：求和Fortran程序 L1: Do 10 I＝1，N L2: A(I)＝B(I)+C(I) L3:10 Continue L4: SUM＝0 L5: Do 20 J＝1，N L6: SUM＝SUM+A(J) L7:20 Continue 假定取指令和加载数据的开销可以忽略不计；所有数组已经装人主存储器，并且短程序段已经装入高速缓冲存储器。忽略总线争用或存储器存取冲突问题。再假设：执行代码行L2，L4和L6，每行要用一个机器周期。执行程序控制语句L1，L3，L5和L7所需的时间可以忽略。假定经过共享存储器的处理机之间的每次通信操作需要k个周期。结论：CPU用2N个周期串行程序并行化在M—处理机系统上执行程序将循环操作划分成M段，每段有L＝N／M个元素。假设经过共享存储器的处理机之间的每次通信操作需要： k个周期。 Doall表示所有M段在M台处理机上并行执行 Doall k＝1，M Do 10 I＝L(k-1)+1，kL。 A(I)＝B(I)+C(I) 10 Continue SUM(k)＝0 Do 20 J＝1，L SUM(k) = SUM(k) + A(L(k-1)+ J) 20 Continue ENDall 分析：循环1是L个周期；循环2是L个周期总时间： 2L+ h(k+1)=2N/M+(k+1) log2M 3.COMA模型概念：只使用高速缓存的多处理机实现的机器：瑞典计算机科学研究所的数据扩散机(DDM，Hagersten等，1990) KendallSquareReserch公司的KSR—1机器(Burkhart等，1992)。特点： COMA模型是NUMA机的一种特例，将NUMA 中分布主存储器换成了高速缓存；全部高速缓冲存储器组成了全局地址空间；远程高速缓存访问则借助于分布高速缓存目录进行，分级目录往往可用来寻找高速缓存块的副本，这与所用的互连网络有关；数据的初始位置并不重要，因为它最终将会迁移到要用到它的地方。模型的演变：例如，高速缓存一致性非均匀存储存取(CC—NUMA)模型。可以用分布共享存储器和高速缓存目录来描述。 CC—NUMA模型的实例斯坦福大学的Dash系统(Lenosh等，1990)和麻省理工学院的Alewife系统(Agarwal等，1990)；这些将在后面讨论。 4.典型的多处理机二、分布存储型多计算机系统 1.概念由多个计算机结点，通过消息传递网络互相连接而成，每个结点是一台由处理机、本地存储器和有时接有磁盘或I／0外围设备组成的自治的计算机。 2.特点：消息传递网络提供结点之间的点到点静态连接传统的多计算机已被称为近地存储访问(NORMA)机所有本地存储器是私用的，而且只有本地处理机才能访问；私用存储器逐渐在分布共享存储器的多计算机中将被逐步取消。 3. 多计算机的换代现代多计算机用硬件寻径器来传送信息；计算机结点与寻径器相连，边界上的寻径器与 I／O和外围设备连接；任何两结点间的消息传递会涉及一连串的寻径器和通道。在异构多计算机系统中，可以有多种类型的结点，结点间的通信是通过可兼容的数据表示和消息传递协议来实现的。消息传递型多计算机的发展换代第一代(1983—1987)是基于处理机板技术，采用了超立方体结构和软件控制的消息交换方法。加州理工学院的Cosmic和InteliPSC／1是这一代研制的代表。第二代(1988—1992)是用网格连接的系统结构、硬件消息寻径和中粒度分布计算的软件环境实现的； IntelParagon和ParsysSuperNodel000可作为代表性产品。现在面临的第三代(1993—)预期是细粒度计算机麻省理工学院的J-Machine和加州工学院的Mosaic，VLSI

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第1章3w200411月15.pptVIP