计算机体系结构第4章修改1.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
向量处理机的高性能局限于求解那些可以转化为向量运算的问题。而科学运算领域内的许多问题正好符合这个特点。 * 对于第i次运算来说,先进性减法,再进行乘法,流水线功能切换一次,i从1取到n,则整个循环切换为n次。 * 相关只发生在向量之间,即Q这个向量上。具体展开就是要等最后一个qN算出来,才开始计算乘法。 * * N=S×n+r,即表示将整个向量分为s+1组,其中s组可以整除长度n,剩下不够n的单独组成一组,长度为r。 * * 此图只是针对向量流水处理部分,还有标量流水处理部分没有给出。即图上只有六条向量流水线。 * 即每个寄存器块里面有64个寄存器,每个寄存器存一个向量元素,则最长的向量长度为64.每拍可以提供或接收一个向量元素。 * 刚好对应上一节讲的,共有12条单功能流水线。其中六条向量,四条标量,两条地址流水线。 * 在Cray-1中,访存取向量的操作都是6拍,而此题目中的7拍,可能是由于包括了数据从存储器送访存部件的1拍延迟,应该是题目搞错了,实际通过时间应该是23,N=64时,得到所有结果应该是23+64-1=86。 * 图中粉色方块里面的数字代表通过时间,即几拍。其中b=7,e=4,h=4,k=2,其余字母都等于1。 * 参看第三章的流水线时空图,第一个结果的出现时间是在t24时刻的起始点,并没有占用t24整个一拍,即通过时间是t0时刻到t23,即24拍,而不是25拍。 * 更正教材P100中的通过时间为23,注意:完整的流水线应该是将与的结果送到V5才算结束,即通过时间应该是加上l的。 * 等式三的前一半为通过时间N+17 * 注意:第一条是指在此例中,V2和V3都在同一个时钟周期得到结果,则同时进行下一条指令的链接。 * 即系统自动完成分段开采,无需程序员干预。 * 即假设N=350,则K=5,L=30,则先执行一次指令1到7,此时N=30。然后再执行一次指令1到3,此时N=64,后面指令4到7设成循环体,循环次数为5. * 向量指令的启动时间即为流水线通过时间-1,而流水线通过时间为e个时钟周期,所以启动时间为e-1个时钟周期。 * 其实第二个因素还包括是否存在Vi冲突。 注意:此时的编队的概念只是一个分组的方式,此时是并行执行时的分组方式。 * 这个公式表示在编队后,编队中所有指令并行执行时,执行时间只取决于这个编队中各指令的执行时间的最大值,所以,当有m个编队时,所有编队的总执行时间为每一队的最大值求和。 * 这里的大括号是表示相除时得到的整数商,即向下取整,而不是数学中表示的除法(商和余数都包含的情况)。 注意:这里提到的最后一次循环是指仅对长度为余数q的向量的处理,不包括长度为MVL的向量。其公式可以套用4.6公式,仅仅把向量长度由n换成q即可。 * 注意:总执行时间里,整数商和余数q被换算成向量长度n了,即MVL×p+q=n。 注意:此时的【n/MVL】不再是仅仅取商而得到的p,而是整个向量的段数,即整数商p加上一个余数作为的一段,即p+1段,正文中的符号表示向上取整。 注意:此公式对所有的分组方式都适用,即对于编队分组方式和链接的分组方式都适用。 * 注意:第二编队的最大启动时间为12,所以,在 Tstart中就看不到7这个时钟周期了。 表达式的最后结果不能写成=4.9n,因为大括号表示取整数商,而不是简单的数学除法。即,如果n=100,则Tn=(1+1)*57+4*100=514,而不是4.9n=4.9*100=490 * 注意:此时的编队名词只是表示一个分组的方式,与幻灯片P49中的编队分组方式不是同一个概念。 * 假设n=100,则Tn=(1+1)*64+3*100=428,而不是4n=4*100=400 * MFLOPS测量单位比较适合于衡量向量机的性能。一般而言,同一程序运行在不同的计算机上时往往会执行 不同数量的指令数,但所执行的浮点数个数常常是相同的。 * 注意:例题4.5中浮点运算两条指令,但向量长度为n,所以,执行的浮点运算次数为2n次。 * 当n趋近于无穷大时,n/64的余数趋近于0,即接近于整除商,此时,【n/64】*64=n * 注意:如果n1/2≤64,则不需要分段,即只有一段,【n1/2/64】向上取整的值=1,则等式的分母为64+3n1/2 * 即向量长度最小为2. * 4.4 向量处理机的性能评价 把上式中的参数都折算成时钟周期个数 : s:Ts所对应的时钟周期数 e: Te所对应的时钟周期数 如果不考虑Ts,并令Tstart=e-1 Tstart:从一条向量指令开始执行到还差一个时钟周期就产生第一个结果所需的时钟周期数。可称之为该向量指令的启动时间。此后,便是每个时钟周期流出一个结果,共有n个结果。 4.4 向量处理机的性能评价 一组向量指令的处

文档评论(0)

183****7931 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档