第5章 流水线.ppt

  1. 1、本文档共151页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 流水线

图 5.31 通过链接技术实现向量  指令之间大部分时间并行 CRAY—1启动访存,把元素送往功能部件,把结果存入Vi都需要有1拍的传送延迟。由于第一、二条指令之间没有冲突,可以同时执行,并且“访存”拍数正好与“浮加”的一样,因此,从访存开始,直至把第一个结果分量存入V4,所需拍数(亦称为链接流水线的建立时间)为 此后,每拍就可取得一个结果分量存入V4,一共只需17+(N-1)拍就可以执行完这3条向量指令,获得全部结果分量。 显然,这要比第一、二条指令全执行完,所有分量全部送入V2、V3后,才开始执行第三条指令要快得多,因为后者需1+6+1+N-1+1+7+1+N-1=15+2N拍。 CRAY—1指令可以链接的特点,使得它能灵活地组织各流水线功能部件的并行操作。最多能并行处理6条向量指令,进一步发挥这些流水线功能部件的效能。因此,链接技术是提高机器整体运算速度的一个非常重要的措施。  CRAY—1的向量指令还可以通过让源向量和结果向量使用同一个向量寄存器组,并控制分量计数器值的修改,来实现递归操作。  CRAY—1的每个向量寄存器组Vi都有一个相应的分量计数器。 当一条向量指令开始执行时,它的源向量寄存器和结果向量寄存器相应的分量计数器均置成“0”。 下面考虑用浮点加法流水线完成递归向量求和V0=V0+V1,其中向量寄存器V1保存要进行递归相加的浮点数,向量寄存器V0同时用作操作数寄存器和结果寄存器。令C1和C2分别是与向量寄存器V0和V1相关的分量计数器。初始时,计数器C0和C1都置成0,V0的第一个分量寄存器V00中的初始值也置成0。 通过浮点加法流水线需要6个时钟周期,寄存器和浮点加法流水线之间的往返传送各还需要1个时钟周期,因此,一次加法计算总共需要1+6+1=8个时钟周期,如下图所示。假定向量长度寄存器的值为64,只作一个向量循环。 图 5.32 递归向量和的部分时间关系 加法指令在t0时启动,两个源向量的第0个分量V00和V11被送到浮点加功能部件,等到t1时开始计算V00+V10。由于V1的分量计数器已在t0结束时加“1”,而V0的分量计数器仍保持为0, 所以t1时又将源向量分量V00和V11送往功能部件。这样,功能部件在t2时计算V00+V11,并将V00和V12送往功能部件。依次类推,一直继续到t8,V00接收V00+V10的运算结果。此后,V0的分量计数器也开始每周期加1。t8时,送往功能部件的V00和V18中的V00已不是初始的“0”值,而是0+V10(即V10值)了。t8以后,由于V0的分量计数器的变化,所以每次送V0的下一分量的内容。运算结束后,V0中各个分量的内容如下: 可以看出,第八部分(结果部分)V056到V063中存放的是V1的64个分量的8个部分和。这种递归向量和的运算是很有用的。例如在科学计算中,经常需要计算两个向量A=(a0, a1, …, aN-1)和B=(b0, b1, …, bN-1)的点积 在STAR—100机中,需用专门处理点积的指令来完成,而在CRAY—1机上,未专门设置处理点积的指令,只需用一个向量循环和一个标量循环即可。在向量循环中,就可以利用这种递归特性组成一个乘—加链: V1←V3*V4 (A、B分别放在V3、V4中) V0←V0+V1 (递归向量和) 如果向量长度N=64,乘—加链执行完毕时,点积的64个部分和就已减少成只有8个,并存放在V056到V063中。这样,下一步的标量循环只需求此8个部分和的和。因此,速度有了显著的提高。 3. 超级向量流水处理机举例 美国CRAY研究公司成立于1972年,至今已生产了400台以上安装于世界各地的CRAY超级计算机。1979年生产的CRAY—1S是对CRAY—1的改进,它有10条流水线,时钟周期为12.5 ns, 使用CRAY操作系统COS, 只允许单用户批处理。  1983年的CRAY X—MP系列采用多处理机配置。 1985年的CRAY—2S最多可采用4台CRAY—1,有2 GB的共享存贮器,超流水线时钟为4.1 ns。 主要特点是,将操作系统由批处理COS改为多用户UNIX系统Ⅴ。 1988年的CRAY Y—MP,由8台处理机组成,时钟周期为6 ns,共享1 GB中央存贮器,采用256个体交叉访问。 1991年问世的CRAY Y—MP C—90是目前最大的CRAY机器,它是由16个类似于Y—MP的CPU组成的集成系统。 CRAY公司1992年10月公布了MPP研究计划,目的是想解决目前大多数

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档