计算机系统结构(第二版).pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统结构(第二版)

计算机系统结构(第二版);目 录; 第6章 单指令流多数据流计算机 ;6.1 单指令流多数据流计算机的 基本结构及特点 ;6.1.1 单指令流多数据流计算机的两种基本结构 ;1. 分布式存储器SIMD计算机基本结构 ;; 2.集中式共享存储器SIMD计算机基本结构 ;; 6.1.2 单指令流多数据流计算机的主要特点 ;6.2 分布式存储器SIMD计算机实例分析 ;1. ILLIAC Ⅳ阵列; ;1. BSP计算机;图6.6 BSP计算机系统框图;系统管理机;为了说明BSP并行存储器的地址变换和无冲突访问,下面先看一个较简单的例子。 设并行存储器的存储体数m=7(质数),运算单元数n=6。若有一个4?5的数组。 a00 a01 a02 a03 a04 a10 a11 a12 a13 a14 a20 a21 a22 a23 a24 a30 a31 a32 a33 a34; BSP的地址映象关系为:先将二维数组按列或者按行的顺序变换为一维数组,以形成一个一维线性地址空间,地址用a表示。然后将地??a变换成并行存储器地址(j,i),其中j是存储体体号,i是体内地址: j=a mod m i=[a/n]下整 存储体数m为一质数,n为无冲突访问的最大存储体数。 ;3. BSP的数据流水线结构 BSP的16个AE组成的算术单元阵列、17个存储体组成的并行存储器和2套互连网络(对准网络)形成了一条5级数据流水线,使连续几条向量指令能在时间上重叠起来执行。 ①由17个存储器输出端口并行读出16个操作数。 ②经对准网络NWl将16个操作数重排列成16个算术单元需要的次序。 ③将排列好的16个操作数送到16个算术单元完成操作。 ④所得的16个结果经对准网络NW2重新排列成在17个存储体中存储所需要的次序。 ⑤写入并行存储器。;6.4 阵列处理机的算法及性能分析 ;6.4.1 阵列处理机的差分计算 ;迭代计算开始时,除由边界条件给定的某些边缘点之外,其余网格点的函数值初值均可设为零。若取网格间距为单位1,迭代计算的表达式为: ;由于阵列处理机中处理器的数量比网格点数少得多,需要把离散域划分为若干个网格块,一个网格块上的网格点的迭代计算由一个处理器完成。 在划分网格块时要注意两点,一是要使网格块的大小相等,二是要使网格块的周长尽可能小,且相邻网格块的邻界边长相等。;6.4.2 阵列处理机的常用算法及性能分析 ;6.4.2 阵列处理机的常用算法及性能分析 ;;;(2) 在Illiac 上执行:每列或每排Cij 需要1次乘法,3次加法,共需要 4*8=32 次加/乘法; 求8×8的矩阵乘法,显然每列或每排Cij 需要1次乘法,7次加法,共需要 8*8=64 次加/乘法; 书中说每个Cij需要1次乘法,7次加法,共需要 8*64=512次加、乘法。 显然有问题,没有充分利用64个运算器。 ;6.4.2 阵列处理机的常用算法及性能分析 ;; 如果在阵列处理机上采用成对递归相加的算法,则只需log28 = 3次加法时间。 首先,8个原始数据A(i),0≤i≤7,存放在8个PEM的a单元中,然后按下述步骤求累加和。 第1步 置全部PE为活跃状态; 第2步 全部A(I),0≤I≤7,从PE的a单元读到相应PE的 RGA中; 第3步 令K:=0; 第4步 全部PE的(RGA)转送到RGR; 第5步 全部PE的(RGR)经过互连网络向右传送2k步距; 第6步 令j=2k - 1; 第7步 置PE0至PEj为不活跃状态; 第8步 处于活跃状态的PE执行(RGA):=(RGA)+(RGR) 的操作; 第9步 K:=K+1; 第10步 若K3,则转第四步;否则,继续往下执行; 第11步 置全部PE为活跃状态; 第12步 全部PE的(RGA)存入相应PEM的a+1单元中。;0;【例6.1】 A和B都是元素为浮点表示的64×64的二维数组,一次浮点加法的计算过程可由取数、求阶差、对阶、尾数加、规格化和存数共6个段组成,若每个段的执行时间均为 ,请分别求出在下列结构不同的处理机上完成C=A+B所需时间及相对于顺序处理方式的加速比。 ;(1)顺序处理方式的处理机。 (2)具有浮点加法流水线的流水处理机,且浮点加法流水线分为6个段,各段执行时间均为 。 (3)8×8的阵列处理机,且处理阵列上的每个处理器只能顺序处理浮点加运算。 (4

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档