- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.5 循环展开和指令调度 注意对存储器数据的相关性分析 例如:对于load指令和store指令,如果它们在不同的循环迭代中访问的存储器地址是不同的,它们就是相互独立的,可以相互对调。 注意新的相关性 由于原循环不同次的迭代在展开后都到了同一次循环体中,因此可能带来新的相关性。 4.5 循环展开和指令调度 根据表4.4给出的延迟条件,超标量处理器如何进行循环展开和指令调度? 4.5.2 静态超标量处理机中的循环展开 4.5 循环展开和指令调度 例4.8 下面是前面使用的循环程序段,对其进行循环展开,并在超标量流水线上进行调度。 Loop: L.D F0,0(R1) // 取一个数组元素放入F0 ADD.D F4,F0,F2 // 加上在F2中的标量 S.D F4,0(R1) // 存结果 DADDIU R1,R1,#-8 // 将指针减少8(每个数据占8个字节) BNE R1,R2,Loop // 若R1不等于R2,表示尚未结束,转移到Loop继续 解 将循环展开5遍并调度,可得如下代码: Loop: L.D F0,0(R1) L.D F6,-8(R1) L.D F10,-16(R1) L.D F14,-24(R1) L.D F18,-32(R1) ADD.D F4,F0,F2 ADD.D F8,F6,F2 ADD.D F12,F10,F2 ADD.D F16,F14,F2 ADD.D F20,F18.F2 S.D F4,0(R1) S.D F8,-8(R1) S.D F12,-16(R1) S.D F16,-24(R1) DADDIU R1,R1,# -40 BNE R1,R2,Loop S.D F20,8(R1) 进一步针对超标量进行调度后的指令序列如下所示 整数指令 浮点指令 时钟周期 Loop: L.D F0(R1) 1 L.D F6,-8(R1) 2 L.D F10,-16(R1) ADD.D F4,F0,F2 3 L.D F14,-24(R1) ADD.D F8,F6,F2 4 L.D F18,-32(R1) ADD.D F12,F10,F2 5 S.D F4,0(R1) ADD.D F16,F14,F2 6 S.D F8,-8(R1) ADD.D F20,F18,F2 7 S.D F12,-16(R1) 8 S.D F16,-24(R1) 9 DADDIU R1,R1,#-40 10 BNE R1,R2,Loop 11 S.D F20,8(R1) 12 4.5 循环展开和指令调度 每次循环需12个时钟周期,即计算每个结果需要2.4个时钟周期。 (每次循环计算5个结果) 在普通的MIPS流水线上,没有调度的代码迭代一次为9个时钟周期,调度后为6个时钟周期,展开4次并调度后每个迭代为3.5个时钟周期。 与之相比,超标量流水线的性能提高分别为: 3.75倍、2.5倍、1.4倍 在这个例子中可以看到,超标量MIPS流水线的性能主要受限于:整数计算和浮点计算之间的平衡问题。 本例中没有足够的浮点指令来使两路流水线都达到饱和。 4.4 多指令流出技术 从图中可以看出: 程序基本可以达到3拍流出5条指令 IPC=5/3=1.67 条/拍 虽然指令的流出率比较高,但是执行效率并不是很高。 16拍共执行15条指令, 平均指令执行速度为15/16=0.94 条/拍。 原因是浮点运算少,ALU部件成了瓶颈。 解决方法:增加一个加法器,把ALU功能和地址运算功能分开。 4.4 多指令流出技术 上述双流出动态调度流水线的性能受限于以下3个因素: 整数部件和浮点部件的工作负载不平衡,没有充分发挥出浮点部件的作用。 应该设法减少循环中整数型指令的数量。 每个循环迭代中的控制开销太大。 5条指令中有两条指令是辅助指令。 应该设法减少或消除这些指令。 控制相关使得处理机必须等到分支指令的结果出来后才能开始下一条L.D指令的执行。 4.4 多指令流出技术 把能并行执行的多条指令组装成一条很长的指令。 (100多位到几百位) 设置多个
您可能关注的文档
- 第六章 设计图样的绘制(第一节 设计表现图).ppt
- 第六章 醛酮醌-徐洲 - 复习.ppt
- 第六章机器人控制.ppt
- 第六讲_SAN拓扑结构与主要应用.ppt
- 第十一章 实验十二 探究单摆的运动 用单摆测重力加速度.ppt
- 第十三-十四章 氨基酸、蛋白质和核酸.ppt
- 第十二章 糖类化合物-徐洲.ppt
- 第十二章-脂类-徐洲.ppt
- 第十章 排序g1.ppt
- 第十章 胺有机化合物-徐洲.ppt
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
原创力文档


文档评论(0)