北邮大三下计算机系统结构实验四代码优化.docVIP

下载本文档

5
0
约2.63千字
约 6页
2015-08-09 发布于湖北
举报
版权申诉

北邮大三下计算机系统结构实验四代码优化.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北邮大三下计算机系统结构实验四代码优化.doc

课程名称：计算机系统结构实验名称：代码优化实验班级：姓名： heifrank 学号：日期： 2012年4月21日实验目的：学习简单编译优化方法，观察采用编译优化方法所带来的性能的提高。实验原理：采用静态调度方法重排指令序列，减少相关，优化程序实验核心思想通过观察实验二中的代码，我们发现程序中主要的几个stalls发生的地方为程序初始化的部分以及进行阶乘计算的过程中。因此我们主要在前一段初始化的代码上实现优化。优化程序代码清单及注释说明： ;--------------------------------------------------------------------------------- ;*********** coded by heifrank ************* ;--------------------------------------------------------------------- ;Program begin at symbol ;requires module INPUT ;read two vectors from stdin and calculate the sum ;(type: double,vectorLength 16) ;the result is written to stdout ;--------------------------------------------------------------------- .data VectorLength: .word 16 Vector1: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 Vector2: .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16 Printf1: .asciiz Vector = Printf2: .asciiz %f .align 2 PrintPrompt: .word Printf1 PrintPar: . word Printf2 Result: .space 4 .text main: ;**** Print prompt Vector = addi r14,r0,PrintPrompt trap 5 addi r2,r0,0 lw r20,VectorLength Loop: ld f10,Vector1(r2) ld f12,Vector2(r2) addi r2,r2,4 cvti2d f0,f10 cvti2d f2,f12 subi r20,r20,1 addd f4,f2,f0 ;add D2=D0+D1 ;**** Finish,write result into stdout sd Result,f4 addi r14,r0,PrintPar trap 5 ;addi r2,r2,4 ;subi r20,r20,1 bnez r20,Loop ;**** End trap 0 四、实验分析： 1）观察成寻中出现的数据/结构/控制相关，指出程序中出现上述现象的指令组合。 (FORWARD技术关闭，浮点运算部件各一个，延迟为4) Cvti2d f2,f12 Subi r20,r20,0x1 Addd f4,f2,f0 ; RAW相关 Sd Result(r0),f4 ; RAW相关和优化之前相比，总花费时钟周期为348（优化前为413），总执行指令数为181（不变），RAW相关：97 stalls（优化前为162 stalls），WAW相关：0 stall，结构相关：0 stall，控制相关：15 stalls（不变）。由此可得出优化后效率提高了约15.7%。考察增