- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阵列处理机的原理
第六章 阵列处理机 并行处理机 阵列处理机(Array Processor)也称并行处理机(Parallel Processor)通过重复设置大量相同的处理单元PE(Processing Element),将它们按一定方式互连成阵列,在单一控制部件CU(Control Unit)控制下,对各自所分配的不同数据并行执行同一组指令规定的操作。操作级并行的SIMD计算机。 目录 阵列处理机的原理 SIMD计算机的互连网络 脉动阵列处理机 §1 阵列处理机的原理 阵列处理机的构形与特点 ILLIAC IV的处理单元阵列结构 ILLIAC IV的并行算法举例 阵列处理机的构形与特点 分布式存储器的阵列处理机构形 集中式共享存储器的阵列处理机构形 一台阵列处理机由五个部分组成 多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP 分布式存储器的阵列处理机 各处理单元设有局部存储器PEM(Processing Element Memory),存放被分布的数据;只能被本处理单元直接访问 控制部件CU设有存放程序和数据的主存储器 整个系统在CU控制下运行用户程序和部分系统程序 处理单元之间可通过互联网络ICN(Interconnection Network) 目前的大部分阵列处理机是基于分布式存储器模型的系统 举例 60年代研制,1972年Burroughs公司的ILLIAC IV阵列处理机 1979年美国Goodyear公司MPP 1974年设计、1980年英国ICL公司的分布式阵列处理机DAP 美国Thinking Machines公司的CM-2 MasPar公司的MP-1 Active Memory Technology的DAP 600 集中式共享存储器的阵列处理机 存储器由K个存储体集中组成,经互联网络ICN为全部N个处理单元所共享 互联网络用于在处理单元与存储体分体之间进行转接而构成数据通路 对准网络(Alignment Network) Burroughs公司和伊利若大学联合BSP 阵列处理机的特点 背景----科学计算 有限差分、矩阵、信号处理、线性规划 数组、向量处理 资源重复,利用并行性中的同时性 简单而规整的互联网络---设计重点 专用机 与并行算法紧密相联 阵列处理机 阵列处理机实质上是由 专门对付数组运算的处理单元阵列组成的处理机 专门从事处理单元阵列的控制及标量处理的处理机 专门从事系统输入输出及操作系统管理的处理机 组成的一个异构型多处理机系统 ILLIAC IV的处理单元阵列结构 阵列处理机上并行算法的研究与结构紧密联系在一起 并行处理机处理单元阵列的结构又是适合于一定类型计算问题而专门设计的结构 ILLIAC ⅠⅤ的处理单元阵列结构 特点 闭合螺线阵列 任意单元的最短距离不超过7步 一般来讲: 个处理单元组成的阵列中,任意两个处理单元之间的最短距离不会超过 步 处理单元为通常的累加型运算器,把类加寄存器RGA中的数据和存储器来的数据进行操作 ILLIAC IV的并行算法举例 矩阵加 矩阵乘 累加和 矩阵加 两个8*8矩阵相加,把分量放在每一个PEM内 算法: LDA ALPHA ADRN ALPHA+1 STA ALPHA+2 说明 速度提高64倍; 信息如何分布于局部存储器的算法与系统结构及求解问题直接相关; 矩阵相加的存储器分配 矩阵乘 设A、B和C为三个8*8的二维矩阵 计算:C=A*B, 矩阵乘 (续) SISD 算法: DO 10 I=0,7 DO 10 J=0,7 C(I,J)=0 DO 10 K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明 SISD算法需8*8*8=512次运算 矩阵乘 (续) SIMD算法: DO 10 I=0,7 C(I,J)=0 DO 10 K=0,7 10 C(I,J)=C(I,J)+A(I,K)*B(K,J) 说明 SIMD算法需8*8=64次运算 矩阵乘的存储器分配 累加和 将N个数按顺序相加 累加和(续) SISD算法: C=0 DO 10 I=0,7 10 C=C+A(I) 说明 需要8次加
文档评论(0)