北邮大三下计算机系统结构代码优化实验报告.docVIP

北邮大三下计算机系统结构代码优化实验报告.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北邮大三下计算机系统结构代码优化实验报告.doc

课程名称: 计算机系统结构 实验名称: 代码优化实验 班 级: 姓 名: schnee 学 号: 日 期: 2012年4月20日 目录 1. 实验目的 3 2. 实验原理 3 3. 优化程序代码清单及注释说明 3 4. 实验分析 4 观察程序中出现的数据/结构/控制相关,指出程序中出现上述现象的指令组合。 4 考察增加浮点运算部件对性能的影响。 5 考察增加FORWARD部件对性能的影响。 5 观察转移指令在转移成功和转移不成功时候的流水线开销。 6 5. 实验心得和总结 6 实验目的 学习简单编译优化方法,观察采用编译优化方法所带来的性能的提高。 实验原理 采用静态调度方法重排指令序列,减少相关,优化程序。 优化程序代码清单及注释说明 .data VectorLength: .word 16 Vector1: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 Vector2: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 Printf1: .asciiz Vector = Printf2: .asciiz %f .align 2 PrintPrompt: .word Printf1 PrintPar: . word Printf2 Result: .space 4 .text main: ;**** Print prompt Vector = addi r14,r0,PrintPrompt trap 5 addi r2,r0,0 ;调换两行代码, ;提前写入R2以减少下面语句的相关 lw r20,VectorLength Loop: ld f10,Vector1(r2) ld f12,Vector2(r2) addi r2,r2,4 ;r2地址加4个字节, ;相当于寻找下一个元素 ;将下面的句子1移动到此处 cvti2d f0,f10 ;把int型改为double D0(f0:f1) cvti2d f2,f12 ;把int型改为double D1(f2:f3) subi r20,r20,1 ;r20值设为16,此处-1以循环16次 ;此处是将下面的句子2移动到此处 addd f4,f2,f0 ;add D2=D0+D1 ;**** Finish,write result into stdout sd Result,f4 addi r14,r0,PrintPar trap 5 ;addi r2,r2,4 ;句子1 ;subi r20,r20,1 ;句子2 bnez r20,Loop ;**** End trap 0 实验分析 这个实验的优化思路在于: 1、根据原先实验3中实验分析1)中关于相关性的分析来找出代码中的相关性, 2、对其中具有相关性的指令,通过把无关紧要的代码提前或者拖后至相关性语句之间,以此来减少甚至消除数据相关性所造成的stall带来的效率低下。 观察程序中出现的数据/结构/控制相关,指出程序中出现上述现象的指令组合。 (FORWARD技术关闭,浮点运算部件各一个,延迟为4) Cvti2d f2,f12 Subi r20,r20,0x1 Addd f4,f2,f0 ; RAW相关 Sd Result(r0),f4 ; RAW相关 和优化之前相比,总花费时钟周期为348(优化前为413),总执行指令数为181(不变),RAW相关:97 stalls(优化前为162 stalls),WAW相关:0 stall,结构相关:0 stall,控制相关:15 stalls(不变)。 可得出优化后效率提高了约15.7%,作用明显。 考察增加浮点运算部件对性能的影响。 (FORWARD技术关闭,浮点运算部件各两个,延迟为4) 总花费时钟周期:348(不变),总执行指

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档