循环展开及指令调度..docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
循环展开及指令调度.

实验项目 名称 循环展开及指令调度 实验 目的及要求 加深对循环级并行性、指令调度技术、循环展开技术以及寄存器换名技术的理解; 熟悉用指令调度技术来解决流水线中的数据相关的方法; 了解循环展开、指令调度等技术对CPU性能的改进。 实验 内容 1.用指令调度技术解决流水线中的结构相关与数据相关 用MIPS汇编语言编写代码文件*.s,程序中应包括数据相关与结构相关(假设:加法﹑乘法﹑除法部件各有2个,延迟时间都是3个时钟周期) 通过Configuration菜单中的 “Floating point stages” 选项,把加法﹑乘法﹑除法部件的个数设置为2个,把延迟都设置为3个时钟周期; 用winMIPS64运行程序。记录程序执行过程中各种相关发生的次数、发生相关的指令组合,以及程序执行的总时钟周期数; 采用指令调度技术对程序进行指令调度,消除相关; 用winMIPS64运行调度后的程序,观察程序在流水线中的执行情况,记录程序执行的总时钟周期数; 根据记录结果,比较调度前和调度后的性能。论述指令调度对于提高CPU性能的意义。 2. 用循环展开、寄存器换名以及指令调度提高性能 用MIPS汇编语言编写代码文件*.s,程序中包含一个循环次数为4的整数倍的简单循环; 用winMIPS64运行该程序。记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数; 将循环展开3次,将4个循环体组成的代码代替原来的循环体,并对程序做相应的修改。然后对新的循环体进行寄存器换名和指令调度; 用winMIPS64运行修改后的程序,记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数; 根据记录结果,比较循环展开、指令调度前后的性能。 实验步骤 1.用指令调度技术解决流水线中的结构相关与数据相关 1)?代?码:? divf?f2,f5,f6 divf?f1,f2,f6 divf?f3,f1,f5 divf?f0,f4,f7 addf?f14,f0,f6 addf?f15,f5,f7???? multf?f20,f4,f6??? multf?f21,f5,f7 设置运算部件个数以及运算时钟周期数 图1 图2. Pipeline图 以下为出现的数据相关 图3 先写后读相关 图4 由于只有两个除法部件,所以出现了功能部件的冲突。?总的执行周期是38指令调度后代码:将无关指令放在一起执行,相关指令分开尽量避免数据相关 divf?f2,f5,f6?? ?multf?f20,f4,f6??? multf?f21,f5,f7?? ?divf?f1,f2,f6?? ?addf?f15,f5,f7??? divf?f3,f1,f5??? divf?f0,f4,f7??? addf?f14,f0,f6? 图5.Pipeline图 图6.Statistics图 总执行时钟周期为35个。 指令调度后,数据相关减少了,总时钟周期数减少了,效能提高了。调度前的时钟周期数为38,调度后的时钟周期数减少为35,加速比?=?38/35=?1.08 2. 用循环展开、寄存器换名以及指令调度提高性能 带循环指令 代码:求四个1相加的和,结果存在r2中 .text .global main main: addi r1,r0,#4 addi r2,r0,#0 Loop: sgt r3,r1,r0 bnez r3,Sub1 trap 0 Sub1: addi r2,r2,#1 subi r1,r1,#1 j Loop 结果:总时钟周期是42个,5 raw stalls,循环了4次,结果 r2 =4 图7 循环展开: 代码: .text .global main main: addi r1,r0,#4 addi r2,r0,#0

文档评论(0)

dsf80fhg0j + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档