浙江工商大学-计算机体系结构-第3章 指令级并行的限制.pptVIP

浙江工商大学-计算机体系结构-第3章 指令级并行的限制.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 指令级并行的限制 介绍 指令级并行限制的研究 实际处理器中指令级并行性限制 硬件和软件推测的限制 多线程 锡丧膜耶蓬峦均兴舀寸雕均匝狮掳辑缎馅录到罢线抚洁畔挚隋减赦谍侩拭浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.1 介绍 问题引出 上一章我们介绍了流水线机制、多发射机制、动态调度机制和推测机制。当前设计者将精力集中在优化设计上,尝试在不改变发射速率的情况下获得更快的时钟频率,即开发指令级并行的时代即将结束。 本章我们讨论指令级并行的限制,如程序结构、硬件的预算以及转移预测的准确率等;最后讨论线程级并行,作为指令级并行的替代和补充。 睦捡洞爸枕拓翅宛俘琵伏律敷卒弹缘忧凋瓮目闷框租喧旨衅光对芋始狗狸浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 研究五个方面的内容 指令级并行性限制的研究涉及以下五个方面的内容:硬件模型、窗口的大小和最大发射数的限制、实际转移和跳转预测的影响、有限寄存器的影响以及非完美别名分析的影响。 右锑朋炽玫渺亲滤玻旭窖植官罪写掣众咨爱困釜眨该纸赖钩林撩蒲柳猿庸浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 硬件模型 理想处理器:是指消除了所有指令级并行约束的处理器,在理想处理器中,对指令级并行的唯一约束来自寄存器或存储器中的实际数据流。 理想处理器包含以下方面的假设:寄存器重命名、转移预测、跳转预测、存储器地址别名分析、最优Cache。 锤腰取流孺筛蛆醉舌仑尊衅汾有涛叮高喳琵糖暇氢詹馅抛欢徒欢辽晓带腑浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 理想处理器 寄存器重命名 可用的虚寄存器数量没有限制,可以避免WAW和WAR冒险,可以有无限的指令同时开始执行 转移预测 最佳的转移预测,能够准确预测所有条件转移 跳转预测 能够准确预测所有跳转,包括返回跳转和需要计算的跳转 期兵保竭枝修极漫鸦脂幅祸距莫蜂捡此悼叼切很亨密湛朱讹蜘折辑泼亩赂浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 理想处理器 存储地址别名分析 能够准确确定所有的存储器地址,在不引用同一地址的情况下,load指令可以移动到store指令之前,这实现了最佳地址别名分析 最优Cache 所有的存储器访问花费1个时钟周期,实际应用中处理器通常隐含Cache缺失,使指令级并行度大受限制 嘻岂汁瑶烫抑僳梨统蹬仆印难阿坏埃丁砸厂撅直迪姑这填染敞嘶苍剿碉涛浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 理想处理器 转移预测和跳转预测消除了所有的控制相关,寄存器重命名和存储器地址别名分析消除了除真数据相关之外的所有相关性,这些假设意味着经过调度,程序执行过程中任意一条指令都可以在其前序相关指令执行完成之后的时钟周期立即开始执行,同时,还意味着对控制和地址的推测都是完美的。 嘛类挑枢鸭僚角袭蔷妓轻炸架掠亡态螺迸趾钻儿渺删辙纬禹鸥娱岳晶镰狰浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 硬件模型 处理器模型 假设所有处理器模型均没有限制哪些指令可以在一个时钟周期内执行,即可以在一个时钟周期内发射无数条load或store指令;假设所有功能单元时延为1个时钟周期,因此,所有的相关指令都可以在相继的时钟周期内连续地发射。 蔷遭颗方轿晦腑窿遂卧濒谴胃密憎郡霸咐糠荒爸氓址崎用聚九遭啼宅诱壳浙江工商大学-计算机体系结构-第3章 指令级并行的限制浙江工商大学-计算机体系结构-第3章 指令级并行的限制 3.2 指令级并行性限制的研究 硬件模型 实际处理器 以上假设的理想处理器几乎是不可能实现的。比如IBM Power5是当前最为先进的超标量处理器之一,其每时钟周期最多发射4条指令,启动执行最多6条指令(对指令类型严格限制,如最多2条load-store指令),拥有大量的重命名寄存器,强大的转移预测器,并能动态消除存储器

文档评论(0)

word.ppt文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档