计算机体系结构第四章-2重点.pptxVIP

下载本文档

84
0
约3.48千字
约 47页
2017-05-16 发布于湖北
举报
版权申诉

计算机体系结构第四章-2重点.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

4.3 动态分支预测技术;4.3 动态分支预测技术;4.3 动态分支预测技术;2.采用两位二进制位来记录历史提高预测的准确度研究结果表明：两位分支预测的性能与n位（n2）分支预测的性能差不多。 1）两位分支预测的状态转换如下所示： ;2）操作步骤：（2步）分支预测当分支指令到达译码段（ID）时，根据从BHT读出的信息进行分支预测。若预测正确，就继续处理后续的指令，流水线没有断流。否则，就要作废已经预取和分析的指令，恢复现场，并从另一条分支路径重新取指令。状态修改;3. BHT方法只在以下情况下才有用：适用情况：判定分支是否成功所需的时间大于确定分支目标地址所需的时间。前述5段经典流水线：由于判定分支是否成功和计算分支目标地址都是在ID段完成，所以BHT方法不会给该流水线带来好处。 4. 研究结果表明：对于SPEC89测试程序来说，具有大小为4K的BHT的预测准确率为82%～99%。一般来说，采用4K的BHT就可以了。 5. BHT可以跟分支指令一起存放在指令Cache中，也可以用一个专门的硬件来实现。 ;二.采用分支目标缓冲器BTB (Branch Target Buffer) 目的：将分支的开销减少为 0 方法：分支目标缓冲器 BTB 将分支成功的分支指令的地址和它的分支目标地址都放到一个缓冲区中保存起来，缓冲区以分支指令的地址作为标识。这个缓冲区就是分支目标缓冲器（Branch-Target Buffer，简记为BTB，或者Branch-Target Cache）。 ;1.BTB的结构;;三.基于硬件的前瞻执行 1. 前瞻执行（Speculation）的基本思想对分支指令的结果进行猜测，并假设这个猜测总是对的，然后按这个猜测结果继续取、流出和执行后续的指令。只是执行指令的结果不是写回到寄存器或存储器，而是放到一个称为ROB（ReOrder Buffer）的缓冲器中。等到相应的指令得到“确认” （commit）（即确实是应该执行的）之后，才将结果写入寄存器或存储器。;2.基于硬件的前瞻执行结合了三种思想： 1）动态分支预测。用来选择后续执行的指令。 2）在控制相关的结果尚未出来之前，前瞻地执行后续指令。 3）用动态调度对基本块的各种组合进行跨基本块的调度。 3.对Tomasulo算法加以扩充，就可以支持前瞻执行。把Tomasulo算法的写结果和指令完成加以区分，分成两个不同的段：写结果指令确认 ;写结果段把前瞻执行的结果写到ROB中；通过CDB在指令之间传送结果，供需要用到这些结果的指令使用。指令确认段在分支指令的结果出来后，对相应指令的前瞻执行给予确认。如果前面所做的猜测是对的，把在ROB中的结果写到寄存器或存储器。如果发现前面对分支结果的猜测是错误的，那就不予以确认，并从那条分支指令的另一条路径开始重新执行。 ;;;4.3 动态分支预测技术;4.3 动态分支预测技术;4.3 动态分支预测技术;4.3 动态分支预测技术; 4.4 多指令流出技术;4.4 多指令流出技术; ;2. 多流出处理机(多发射) 每个周期同时取多条指令、同时译码多条指令，同时执行多条指令，同时写回多个运算结果。需要多套（m）指令部件（取指部件和译码部件）和多个写结果部件。设置多个指令执行部件，有些指令部件采用流水线结构。设计目标：一个时钟周期内流出多条指令，指令并行度ILP1（CPI＜1）。; ;二. 多流出处理机有两种基本结构 1. 超标量处理机（空间并行）：一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机。最基本的要求是有两套或两套以上完整的指令执行部件。为了能够在一个时钟周期内同时发射多条指令，超标量处理机必须有两条或两条以上能够同时工作的指令流水线。 ;目前的指令调度技术，每个周期发射2-4条指令比较合理。例如：Intel公司的i860、i960、Pentium，IBM公司的Power 6000每个周期发射2条指令；Pentium Ⅲ每个周期发射3条指令。超标量处理机在每个时钟周期流出的指令条数不固定，依代码的具体情况而定。有上限，设这个上限为m，就称该处理机为m-流出（发射m条指令）。实际指令级并行度1＜ILP＜m 可以通过编译器进行静态调度，也可以基于Tomasulo算法进行动态调度。 ;2. 超长指令字VLIW（Very Long Instruction Word）基本思路：由编译器在编译时找出指令间潜在的并行性，进行适当调度安排，把多个能并行执行的操作组合在一起，成为一条具有多个操作段的超长指令（100多位到几百位），并设置多个功能部件。超长指令字被分割成一些操作段，每个字段称为一个操作槽，直接独立地