第1章3w200411月15.pptVIP

  • 3
  • 0
  • 约3.57千字
  • 约 49页
  • 2016-12-23 发布于重庆
  • 举报
并行处理与体系结构 第一章 并行计算机模型 ?1 计算技术的现状 ?2 多处理机和多计算机 ?3 多向量机和SIMD计算机 ?4 并行计算机的抽象模型 ?5 可扩展的范围和设计 ?2 多处理机和多计算机 一、共享存储型多处理机 1. UMA模型 UMA --Uniform Memory Access 结构和特点: 紧耦合系统(tightly coupled system) 多处理机由于高度资源共享 系统的互连采用总线、交叉开关、或多级网络形式 对称(symmetric)多处理机 当所有处理机都能同样访问所有外围设备时。 例 Fortran程序可在单处理机上顺序执行,分析CPU的运行时间,假设条件: 所有数组A(I),B(I),C(I)都有N个元素; 分析:求和Fortran程序 L1: Do 10 I=1,N L2: A(I)=B(I)+C(I) L3:10 Continue L4: SUM=0 L5: Do 20 J=1,N L6: SUM=SUM+A(J) L7:20 Continue 假定取指令和加载数据的开销可以忽略不计; 所有数组已经装人主存储器,并且短程序段已经装入高速缓冲存储器。 忽略总线争用或存储器存取冲突问题。 再假设: 执行代码行L2,L4和L6,每行要用一个机器周期。 执行程序控制语句L1,L3,L5和L7所需的时间可以忽略。 假定经过共享存储器的处理机之间的每次通信操作需要k个周期。 结论:CPU用2N个周期 串行程序并行化 在M—处理机系统上执行程序 将循环操作划分成M段,每段有L=N/M个元素。 假设经过共享存储器的处理机之间的每次通信操作需要: k个周期。 Doall表示所有M段在M台处理机上并行执行 Doall k=1,M Do 10 I=L(k-1)+1,kL。 A(I)=B(I)+C(I) 10 Continue SUM(k)=0 Do 20 J=1,L SUM(k) = SUM(k) + A(L(k-1)+ J) 20 Continue ENDall 分析: 循环1是L个周期;循环2是L个周期 总时间: 2L+ h(k+1)=2N/M+(k+1) log2M 3.COMA模型 概念:只使用高速缓存的多处理机 实现的机器: 瑞典计算机科学研究所的数据扩散机(DDM,Hagersten等,1990) KendallSquareReserch公司的KSR—1机器(Burkhart等,1992)。 特点: COMA模型是NUMA机的一种特例,将NUMA 中分布主存储器换成了高速缓存; 全部高速缓冲存储器组成了全局地址空间; 远程高速缓存访问则借助于分布高速缓存目录进行,分级目录往往可用来寻找高速缓存块的副本,这与所用的互连网络有关; 数据的初始位置并不重要,因为它最终将会迁移到要用到它的地方。 模型的演变: 例如,高速缓存一致性非均匀存储存取(CC—NUMA)模型。 可以用分布共享存储器和高速缓存目录来描述。 CC—NUMA模型的实例 斯坦福大学的Dash系统(Lenosh等,1990)和麻省理工学院的Alewife系统(Agarwal等,1990); 这些将在后面讨论。 4.典型的多处理机 二、分布存储型多计算机系统 1.概念 由多个计算机结点,通过消息传递网络互相连接而成,每个结点是一台由处理机、本地存储器和有时接有磁盘或I/0外围设备组成的自治的计算机。 2.特点: 消息传递网络提供结点之间的点到点静态连接 传统的多计算机已被称为近地存储访问(NORMA)机 所有本地存储器是私用的,而且只有本地处理机才能访问; 私用存储器逐渐在分布共享存储器的多计算机中将被逐步取消。 3. 多计算机的换代 现代多计算机用硬件寻径器来传送信息; 计算机结点与寻径器相连,边界上的寻径器与 I/O和外围设备连接; 任何两结点间的消息传递会涉及一连串的寻径器和通道。 在异构多计算机系统中,可以有多种类型的结点,结点间的通信是通过可兼容的数据表示和消息传递协议来实现的。 消息传递型多计算机的发展换代 第一代(1983—1987)是基于处理机板技术,采用了超立方体结构和软件控制的消息交换方法。 加州理工学院的Cosmic和InteliPSC/1是这一代研制的代表。 第二代(1988—1992)是用网格连接的系统结构、硬件消息寻径和中粒度分布计算的软件环境实现的; IntelParagon和ParsysSuperNodel000可作为代表性产品。 现在面临的第三代(1993—)预期是细粒度计算机 麻省理工学院的J-Machine和加州工学院的Mosaic,VLSI

文档评论(0)

1亿VIP精品文档

相关文档