- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统结构补充
补充【4.1 指令级并行的概念】例:for (i=999; i=0; i=i-1) x[i] = x[i] + s;考虑对应的 DLX 汇编语言实现.约定:x[0] 的内存地址为 8(R2) (为简单起见) R1的初值为x[999]的地址 F2中存放的值为常量 s 不考虑分支转移的延迟时间LOOP:LD F0, 0(R1)ADDDF4, F0, F2SD F4, 0(R1)DADDUI R1, R1, #-8BNER1, R2,LOOP 实际运行:(1)LOOP:LD F0, 0(R1)(2)(空转)(3)ADDDF4, F0, F2(4)(空转)(5)(空转)(6)SDF4, 0(R1)(7)DADDUI R1, R1, #-8(8) (空转) (9)BNER1, R2,LOOP 一共 9 个时钟周期,其中有 4 个空转周期。指令调度:(1)LOOP:LDF0, 0(R1)(2)(空转)(3)ADDDF4, F0, F2(4) (空转)(5) DADDUI R1, R1, #-8(6) SDF4, 8(R1)(7) BNER1, R2,LOOP 一共 7 个时钟周期,其中有 2 个空转周期。这种指令调度由编译器完成的,其基本思想是将指令序列中的“无关”指令调入空转周期。 循环展开(4次):(1)LOOP:LDF0, 0(R1)(2)(空转)(3)ADDD F4, F0, F2(4)(空转)(5)(空转)(6)SDF4, 0(R1)(7)LDF0, -8(R1)(8)(空转)(9)ADDD F4, F0, F2(10)(空转)(11)(空转)(12)SDF4, -8(R1)(13)LDF0, -16(R1)(14)(空转)(15)ADDD F4, F0, F2(16)(空转)(17)(空转)(18)SDF4, -16(R1)(19)LDF0, -24(R1)(20)(空转)(21)ADDD F4, F0, F2(22)(空转)(23)(空转)(24)SDF4, -24(R1)(25)DADDUI R1, R1, #-32(26)(空转) (27)BNE R1, R2,LOOP 循环展开4次,每次迭代分配不同的寄存器:(1)LOOP:LDF0, 0(R1)(2)(空转)(3)ADDD F4, F0, F2(4)(空转)(5)(空转)(6)SDF4, 0(R1)(7)LDF6, -8(R1)(8)(空转)(9)ADDD F8, F6, F2(10)(空转)(11)(空转)(12)SDF8, -8(R1)(13)LDF10, -16(R1)(14)(空转)(15)ADDD F12, F10, F2(16)(空转)(17)(空转)(18)SDF12, -16(R1)(19)LDF14, -24(R1)(20)(空转)(21)ADDD F16, F14, F2(22)(空转)(23)(空转)(24)SDF16, -24(R1)(25)DADDUI R1, R1, #-32(26)(空转) (27)BNE R1, R2,LOOP 一共 27 个时钟周期,平均每次循环使用27 / 4 =6.7个周期循环展开+指令调度(循环展开调度):(1)LOOP:LDF0,0(R1)(2)LDF6,-8(R1)(3)LDF10,-16(R1)(4)LDF14,-24(R1)(5)ADDD F4,F0,F2(6)ADDD F8,F6,F2(7)ADDD F12,F10,F2(8)ADDD F16,F14,F2 (9)SDF4, 0(R1)(10)SDF8, -8(R1)(11)SDF12, -16(R1)(12)DADDUI R1, R1, #-32(13)SDF16, 8(R1)(14)BNER1, R2,LOOP 一共 14 个时钟周期,平均每次循环使用14 / 4 ? 3.5个周期。所有“空转”消失,即数据相关被消除,达到完全指令级并行。 【结论】:由编译器所完成的循环展开和指令调度(静态调度),能有效提高指令级并行。【4.2动态算法之一:记分牌】例子:假设流水线延迟如下:加法 2 个时钟周期,乘法十个时钟周期,除法四十个时钟周期,起始状态如上表,分别给出 MULD 和 DIVD 准备写结果之前的记分牌。MULD记分牌DIVD记分牌【4.2.2动态算法之二:Tomasulo算法】例子:LDF6,34(R2)LDF2,45(R3)MULDF0,F2,F4SUBDF8,F6,F2DIVDF10,F0,F6ADDDF6,F8,F2例:假设流水线延迟如下:加法 2 个时钟周期,乘法十个时钟周期,除法四十时钟周期,起始状态如上表,给出MULD准备写结果之前的Tomasulo状态表。
您可能关注的文档
最近下载
- 基坑支护内支撑梁拆除施工方案.docx VIP
- 最新人教版一年级上册《数学游戏》课件(整套)教学PPT(2024年秋-新教材).pptx VIP
- 最新人教版一年级数学上册《数学游戏》教学课件(整套)PPT(2024秋-新教材).pptx VIP
- GBT6058-2005 纤维缠绕压力容器制备和内压试验方法.pdf
- GB╱T 23711.1-2009 氟塑料衬里压力容器电火花试验方法.pdf
- 7m焦炉推焦车的结构特征.pdf
- 研发领料单模板.docx VIP
- 辽宁省技工学校审批表.doc VIP
- GB 26501--2011 氟塑料衬里压力容器 通用技术条件.pdf
- 施工放样报验单.doc VIP
文档评论(0)