计算机系统结构 第7章 并行处理技术与SIMD阵列机.pptVIP

计算机系统结构 第7章 并行处理技术与SIMD阵列机.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章 并行处理技术与 阵列机原理 内容提要: 第7章 并行处理技术与 阵列机原理 7.1 并行处理技术 7.2 SIMD阵列机 7.3 脉动阵列机 7.1 并行处理技术 7.1.1 并行处理的基本概念 7.1.2 并行性的开发途径 7.1.1 并行处理的基本概念 7.2 SIMD阵列机 7.2.1 SIMD阵列机的基本结构 7.2.2 阵列机并行算法 7.2.3 SIMD阵列机的特点 7.2.4 并行存储器无冲突访问 7.2.5 典型SIMD阵列机举例 7.2.1 SIMD阵列机的基本结构 7.2.2 阵列机并行算法 7.2.3 SIMD阵列机的特点 7.2.4 并行存储器无冲突访问 7.2.5 典型SIMD阵列机举例 1. ILLIAC-Ⅳ阵列机 2. BSP阵列机 7.3.2 面向特定算法脉动阵列机 的结构形式 7.3.3 通用脉动阵列机的结构 根据求解问题的不同,脉动阵列机可以是一维线性阵列、二维矩形阵列、二维六边形阵列、二叉树形阵列以及三角形阵列等形式,如图7.19 所示。 图7.19 脉动阵列机结构形式 2.脉动阵列机举例 对图7.17所示的二维阵列结构进行改造,得到可以进行3?3矩阵乘法运算的变形脉动阵列机,如图7.20所示。设有3?3矩阵A和B: cij = ∑aik·bkj k= 0 2 其中 0≤i≤2,0≤j≤2。 A = a00 a01 a02 a10 a11 a12 a20 a21 a22 B = b00 b01 b02 b10 b11 b12 b20 b21 b22 C = A·B = c00 c01 c02 c10 c11 c12 c20 c21 c22 则 为了能够进行两个3?3矩阵的乘法运算,每一个处理单元PE应包含一个乘法器和一个加法器,以完成内积和加法运算。在每一个时钟周期,可接收3个方向输入的数据,即水平方向由左向右,竖直方向由下向上,左下角沿45°方向到右上角;同时,还可以将结果传送到3个对应的输出端,即m’←m,n’←n,p←m?n+q。 这样,在t1~t3时钟周期,参加运算的矩阵元素开始输入脉动阵列机;在t6时刻,运算结果开始输出,即在45°方向上同时输出c02、c01、c00、c10、c20,在t7时刻输出c12、c11、c21,在t8时刻输出c22。可以看出,仅需要8个时钟周期就完成了3?3矩阵的乘法运算,而在单处理机中采用循环运算,至少需要27个时钟周期,速度提高了近2.4倍。 通过对图7.20的结构分析可以看出,若要对n?n矩阵进行乘法运算,则需要3n2?3n+1个处理单元PE构成脉动阵列机,而且,仅需要3n?1个时钟周期就可以完成全部运算。运算所需要的时间仅以近似于3n的线性关系在增加。尤其是n较大时,采用脉动阵列机进行运算,效果更明显。 如果矩阵很大,难以一次在脉动阵列机上求解时,可以用软件的方法将其拆分为若干个小矩阵分别运算,然后再由主机做进一步的处理,求出整体运算结果。 3.脉动阵列机结构的特点 对于上述脉动阵列机可归纳出以下特点。 (1)脉动阵列机的结构与具体的算法紧密相关 (2)结构简单规整,模块化结构明显 (3)数据流和控制流简单规整,易于设计 (4)各处理单元同时工作,具有很强的系统并行性 脉动阵列机是针对某一种或者某些具体的问题而提出来的,因此与算法紧密相联,且由若干个功能相同、结构简单的处理单元构成,采用模块化结构,可扩展性好;通信线路简单规整,易于设计,有利于提高VLSI的集成度;各处理单元同时工作,并行性很强。 1. 可编程脉动阵列结构 可编程脉动阵列结构是增设附加硬件,通过编程对阵列的拓扑结构和互连方式进行重构,以实现不同算法的需求。目前,已经有可编程脉动阵列芯片,通过编程可重新配置阵列的结构,以满足不同算法的需求。例如美国普图(Purdue)大学的CHiP(Configurable Highly Parallel Computer),即可以不同算法构造出相应的阵列机。 CHiP结构如图7.21所示,包含三个部分,即一组功能相同的处理单元PE、一个控制器和一个开关网络。图中方框表示处理单元,圆圈表示可编程开关,处理单元通过开关的转接实现互连。每一个开关含有一个局部存储器,称为开关存储器,存储构成不同阵列时的设置方式。

您可能关注的文档

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档