计算机系统结构（第二版）.pptxVIP

下载本文档

6
0
约3.37千字
约 46页
2017-09-23 发布于河南
举报
版权申诉

计算机系统结构（第二版）.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机系统结构（第二版）

计算机系统结构（第二版）;目录; 第6章单指令流多数据流计算机 ;6.1 单指令流多数据流计算机的基本结构及特点 ;6.1.1 单指令流多数据流计算机的两种基本结构 ;1. 分布式存储器SIMD计算机基本结构 ;; 2.集中式共享存储器SIMD计算机基本结构 ;; 6.1.2 单指令流多数据流计算机的主要特点 ;6.2 分布式存储器SIMD计算机实例分析 ;1. ILLIAC Ⅳ阵列; ;1. BSP计算机;图6.6 BSP计算机系统框图;系统管理机;为了说明BSP并行存储器的地址变换和无冲突访问，下面先看一个较简单的例子。设并行存储器的存储体数m=7(质数)，运算单元数n=6。若有一个4?5的数组。 a00 a01 a02 a03 a04 a10 a11 a12 a13 a14 a20 a21 a22 a23 a24 a30 a31 a32 a33 a34; BSP的地址映象关系为：先将二维数组按列或者按行的顺序变换为一维数组，以形成一个一维线性地址空间，地址用a表示。然后将地??a变换成并行存储器地址(j，i)，其中j是存储体体号，i是体内地址： j=a mod m i=[a／n]下整存储体数m为一质数，n为无冲突访问的最大存储体数。 ;3. BSP的数据流水线结构 BSP的16个AE组成的算术单元阵列、17个存储体组成的并行存储器和2套互连网络(对准网络)形成了一条5级数据流水线，使连续几条向量指令能在时间上重叠起来执行。 ①由17个存储器输出端口并行读出16个操作数。 ②经对准网络NWl将16个操作数重排列成16个算术单元需要的次序。 ③将排列好的16个操作数送到16个算术单元完成操作。 ④所得的16个结果经对准网络NW2重新排列成在17个存储体中存储所需要的次序。 ⑤写入并行存储器。;6.4 阵列处理机的算法及性能分析 ;6.4.1 阵列处理机的差分计算 ;迭代计算开始时，除由边界条件给定的某些边缘点之外，其余网格点的函数值初值均可设为零。若取网格间距为单位1，迭代计算的表达式为： ;由于阵列处理机中处理器的数量比网格点数少得多，需要把离散域划分为若干个网格块，一个网格块上的网格点的迭代计算由一个处理器完成。在划分网格块时要注意两点，一是要使网格块的大小相等，二是要使网格块的周长尽可能小，且相邻网格块的邻界边长相等。;6.4.2 阵列处理机的常用算法及性能分析 ;6.4.2 阵列处理机的常用算法及性能分析 ;;;(2) 在Illiac 上执行：每列或每排Cij 需要1次乘法，3次加法，共需要 4*8=32 次加/乘法；求8×8的矩阵乘法，显然每列或每排Cij 需要1次乘法，7次加法，共需要 8*8=64 次加/乘法；书中说每个Cij需要1次乘法，7次加法，共需要 8*64=512次加、乘法。显然有问题，没有充分利用64个运算器。 ;6.4.2 阵列处理机的常用算法及性能分析 ;; 如果在阵列处理机上采用成对递归相加的算法，则只需log28 = 3次加法时间。首先，8个原始数据A(i)，0≤i≤7，存放在8个PEM的a单元中，然后按下述步骤求累加和。第1步置全部PE为活跃状态；第2步全部A(I)，0≤I≤7，从PE的a单元读到相应PE的 RGA中；第3步令K:=0；第4步全部PE的(RGA)转送到RGR；第5步全部PE的(RGR)经过互连网络向右传送2k步距；第6步令j=2k - 1；第7步置PE0至PEj为不活跃状态；第8步处于活跃状态的PE执行(RGA):=(RGA)+(RGR) 的操作；第9步 K:=K+1；第10步若K3，则转第四步；否则，继续往下执行；第11步置全部PE为活跃状态；第12步全部PE的(RGA)存入相应PEM的a+1单元中。;0;【例6.1】 A和B都是元素为浮点表示的64×64的二维数组，一次浮点加法的计算过程可由取数、求阶差、对阶、尾数加、规格化和存数共6个段组成，若每个段的执行时间均为，请分别求出在下列结构不同的处理机上完成C=A+B所需时间及相对于顺序处理方式的加速比。 ;（1）顺序处理方式的处理机。（2）具有浮点加法流水线的流水处理机，且浮点加法流水线分为6个段，各段执行时间均为。（3）8×8的阵列处理机，且处理阵列上的每个处理器只能顺序处理浮点加运算。（4