- 1、本文档共206页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机系统结构课件:第3章 流水线技术
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 3.6 向量处理机 如果流水线不存在“瓶颈”,每段的执行时间等于一个时钟周期,则上式可以写为: s:向量流水线的建立时间所对应的时钟周期数 e:向量流水线的流过时间所对应的时钟周期数 Tclk:时钟周期时间 也可以将上式改写为: Tstart:向量功能部件启动所需的时钟周期数 3.6 向量处理机 对于一组向量指令而言,其执行时间主要取决于三个因素: 向量的长度 向量操作之间是否链接 向量功能部件的冲突和数据的冲突性 把几条能在同一个时钟周期内一起开始执行的向量指令集合称为一个编队。 可以看出,同一个编队中的向量指令之间一定不存在流水向量功能部件的冲突和数据的冲突。 3.6 向量处理机 例3.5 假设每种向量功能部件只有一个,那么下面的一组向量指令能分成几个编队? LV V1,Rx MULTSV V2,R0,V1 LV V3,Ry ADDV V4,V2,V3 SV Ry,V4 解:分为4个编队 第一编队:LV 第二编队:MULTSV; LV 第三编队:ADDV 第四编队:SV 3.6 向量处理机 一个编队内所有向量指令执行完毕所要的时间为: (假设第i个编队中所有向量指令处理的向量元素个数均为n) Tci:第i个编队的执行时间 Tstartij :第i个编队中第j条指令所使用向量功能部件的启动时钟周期数 3.6 向量处理机 编队后的向量指令序列总的执行时间为: m:向量指令序列编队的个数 Tstart:向量指令序列编队总的启动时钟周期数 3.6 向量处理机 编队并采用分段开采技术后,向量指令序列执行所需的总的时钟周期数为: Tloop:分段开采所需的额外的时间开销 MVL:向量处理机的向量寄存器长度 3.6 向量处理机 例3.6 在某向量处理机上执行DAXPY的向量指令序列,也即计算双精度浮点向量表达式。 其中X和Y是双精度浮点向量,最初保存在外部存储器中,α是一个双精度浮点常数,已存放在浮点寄存器F0中。计算该表达式的向量指令序列如下: LV V1,Rx MULTFV V2,F0,V1 LV V3,Ry ADDV V4,V2,V3 SV Ry,V4 3.6 向量处理机 解:可以把上述5条向量指令按如下方式进行编队: 第一编队:LV V1,Rx; 第二编队:MULTFV V2,F0,V1;LV V3,Ry; 第三编队:ADDV V4,V2,V3; 第四编队:SV Ry,V4。 假设: Tloop=15 向量存储部件的启动:12个时钟周期 向量乘法部件的启动:7个时钟周期 向量加法部件的启动:6个时钟周期 向量寄存器长度:MVL 3.6 向量处理机 对n个向量元素进行计算所需的时钟周期数为 采用向量链接技术,那么指令序列可以编队为 第一编队:LV V1,Rx;MULTFV V2,F0,V1; 第二编队:LV V3,Ry;ADDV V4,V2,V3; 第三编队:SV Ry,V4。 3.6 向量处理机 第一编队启动需要12+7=19个时钟周期 第二个编队启动需要12+6=18个时钟周期 第三个编队启动仍然需要12个时钟周期 对n个向量元素进行计算所需的时钟周期数为 3.6 向量处理机 向量处理机的峰值性能 R∞ R ∞表示当向量长度为无穷大时,向量处理机的最高性能,也称为峰值性能。 对于上述例题3.6向量指令序列中的操作而言,只有“MULTFV V2,F0,V1”和“ADDV V4,V2,V3”两条浮点操作向量指令。 假设该向量处理机的时钟频率为200 MHz,那么: 3.6 向量处理机 的时钟周期数 向量指令序列执行所需 时钟频率 算次数 向量指令序列中浮点运 × = ∞ ∞ n R lim 2× n × 200 = ∞ n lim MFLOPS n 64 ×64+ 3 n MFLOPS 2× n × 200 = ∞ n lim 4 n
您可能关注的文档
最近下载
- 美的专卖店运营手册.doc
- 人教版五年级数学上册第六单元《多边形的面积》导学案 .doc
- (24)--6.6 原子结构 概率密度、电子云、波函数和电子云的空间图像.pdf
- RealityCapture中文教程_最新教程【104页】.pdf
- 5.认识身边的数字设备(教学课件)-三年级信息科技全一册(河北大学版2024).pptx
- 野生动物知识竞赛考试题库(汇总600题).pdf VIP
- 《Is this your pencil》PPT精品课件7七年级上册英语人教版.pptx
- 市区燃气管道工程施工组织设计.pdf
- 李晓风-高考历史一轮复习教材分析和教学设计.ppt
- 液体渗透探伤规范-中英文(03版).pdf
文档评论(0)