- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目 录 第6章 单指令流多数据流计算机 6.1 单指令流多数据流计算机的基本结构与特点 6.2 分布式存储器SIMD计算机实例分析 6.3 集中式共享存储器SIMD计算机实例分析 6.4 阵列处理机的算法及性能分析 第6章 单指令流多数据流计算机 6.1 单指令流多数据流计算机的基本结构与特点 单指令流多数据流(SIMD)计算机的关键特征是它的并行处理机。 6.1.1 单指令流多数据流计算机的两种基本结构 根据存储器的组织方式不同,单指令流多数据流计算机的基本结构分为两种: 集中式共享存储器型 分布式存储器型 1. 分布式存储器SIMD计算机基本结构 并行处理机的每个处理单元都有自己的局部存储器,存放可直接访问的数据。所有的处理单元通过互连网络互联。 阵列控制部件CU是一台功能专用的处理机,它执行程序流控制指令和程序中的标量运算。 管理处理机SC运行操作系统,管理系统资源。 2.集中式共享存储器SIMD计算机基本结构 并行处理机的所有处理单元共享由个存储体组成的并行存储器,处理单元与存储体之间通过互连网络互连。 CU和SC的功能与采用分布式存储器构型的SIMD计算机没有什么差别。 6.1.2 单指令流多数据流计算机的主要特点 SIMD的效率取决于计算程序向量化的程度。 SIMD计算机依靠的并行措施是资源重复。 SIMD计算机的互连网络决定了SIMD计算机能适应的算法类别, SIMD计算机的实际有效速度取决于另外两个因素。一是标量运算速度,二是编译过程的时间开销。 SIMD计算机是根据功能专用化的原则组成的一种异构型多计算机系统。 6.2 分布式存储器SIMD计算机实例分析 两种典型的SIMD计算机 采用分布式存储器结构的并行处理机的ILLIAC Ⅳ计算机。 采用集中式共享存储器结构的并行处理机的BSP计算机。 1. ILLIAC Ⅳ阵列 ILLIAC Ⅳ系统由3种类型处理机组成的一个异构多处理机系统。 一是专门用于数组运算的处理单元阵列; 二是阵列控制器,它既是处理单元阵列的控制部分,又是一台相对独立的小型标量处理机; 三是一台标准的Burroughs B6700计算机,由它担负ILLIAC Ⅳ输入输出系统和操作系统管理功能。 1. BSP计算机 它由系统管理计算机B7700/B7800和BSP处理机两大部分组成,前者可视为后者的前端机。 系统管理机负责BSP程序编译、与远程终端及网络的数据通信、外围设备管理等,大多数BSP作业调度和操作系统活动也是在系统管理机上完成的。 BSP处理机又可分为3部分,一是并行处理机,二是控制处理机,三是容量为4~64M字的文件存储器。 为了说明BSP并行存储器的地址变换和无冲突访问,下面先看一个较简单的例子。 设并行存储器的存储体数m=7(质数),运算单元数n=6。若有一个4?5的数组。 a00 a01 a02 a03 a04 a10 a11 a12 a13 a14 a20 a21 a22 a23 a24 a30 a31 a32 a33 a34 BSP的地址映象关系为:先将二维数组按列或者按行的顺序变换为一维数组,以形成一个一维线性地址空间,地址用a表示。然后将地址a变换成并行存储器地址(j,i),其中j是存储体体号,i是体内地址: j=a mod m i=[a/n]下整 存储体数m为一质数,n为无冲突访问的最大存储体数。 3. BSP的数据流水线结构 BSP的16个AE组成的算术单元阵列、17个存储体组成的并行存储器和2套互连网络(对准网络)形成了一条5级数据流水线,使连续几条向量指令能在时间上重叠起来执行。 ①由17个存储器输出端口并行读出16个操作数。 ②经对准网络NWl将16个操作数重排列成16个算术单元需要的次序。 ③将排列好的16个操作数送到16个算术单元完成操作。 ④所得的16个结果经对准网络NW2重新排列成在17个存储体中存储所需要的次序。 ⑤写入并行存储器。 6.4 阵列处理机的算法及性能分析 阵列处理机的处理器阵列有固定的结构,因此,阵列处理机的性能与算法有很大关系。若问题求解的算法能与阵列处理机的结构相适应,就能获得较高的性能;否则,阵列处理机的实际性能就很低,处理单元的利用率也很低。 6.4.1 阵列处理机的差分计算 描述平面场的拉普拉斯方程: 迭代计算开始时,除由边界条件给定的某些边缘点之外,其余网格点的函数值初值均可设为零。若取网格间距为单位1,迭代计算的表达式为:
文档评论(0)