计算机流水线处理机及其设计教学.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6 流水线处理机及其设计 6.1 引 言 流水线(pipeline)是一种能够使多条指令重叠操作的处理机的实现技术,它已成为现代处理机设计中最为关键的技术。 流水线技术并不是处理机设计领域所独有的。早在计算机还没有出现之前,流水线技术已被广泛应用于工业生产中了。尤其是现在,几乎所有的现代化工厂的生产线都采用流水线技术。一件产品往往需要几道工序才能完成。每道工序只完成生产过程中的一小部分操作,即送往下——道工序。如果单从——件产品从开始到完成来看,生产所需要的时间,与非流水线相比,似乎并没有缩短。但从整体来看,产品的出产率却大大提高了。流水线处理机也是这样,单条指令的执行时间没有缩短,但每个时钟周期都会有一条指令执行完毕。试想,非流水线多周期处理机执行一条指令平均要花费大约4个时钟周期。假设执行1万条指令,就要用4万个时钟周期。而流水线处理机执行一条指令可能需要5个时钟周期,但由于多条指令,例如5条,可以重叠操作,总体上,平均每条指令所花费的时间大致为1个时钟周期,总共只需要大约1万个时钟周期。这就是所谓的“吞吐率”的提高。 流水线处理机把一条指令的执行分成几个步骤,或称级(stages)。每一级在一个时钟周期内完成。在每个时钟周期,处理机启动执行一条指令。如果处理机的流水线有m级,则同时可重叠执行的指令总条数将为m,每条指令处在不同的执行阶段。如果分级分得好的话,那么每—级都没有时间上的浪费。这是最理想的情况。流水线处理机在这种理想的情况下,与非流水线处理机的性能加速比为 其中,I为一个程序被执行的总的指令条数。它在流水线处理机和非流水线处理机中是相等的。CPI是每条指令总体平均所需的时钟周期数。CPInp是非流水线处理机的CPI,CPIn是流水线处理机的CPI。因为流水线处理机把一条指令的执行时间理想地分成了阴级,有m条指令在同时(重叠)执行,则CPIp=CPInp/m。也可理解为CPIp=1,而CPInp=m。T是每个时钟周期的时间长度,假设它在两种处理机中也是相同的。最后总的加速比为m,即等于流水线的级数。 这岂不是说,把流水线级数分得越多处理机的性能就越好?但是,实际的情况往往要受很多条件的限制。流水线处理机性能提高的关键在于每个时钟周期处理机都能启动一条指令的执行。这意味者流水线每级中的执行部件要有能力在每个时钟周期接收一条新的指令。例如,如果ALU完成一次操作要用10ns的话,那么一个ALU接收一条指令操作的周期不能短于10ns。指令存储器以及数据存储器也有这样的限制。也假设它们的访问周期是10ns,则每隔10ns才能从指令存储器取出一条指令,或者每隔10ns才能读写一次数据存储器。 在本章以下的讨论中,我们仍使用5章中定义的指令系统。它们是,ALU操作类型的指令,包括and,of,add和:sub;存储器访问指令10ad和store;条件转移指令bne和beq,以及无条件转移指令branch,共9条。ALU指令除了把运算结果写入寄存器堆之外,也把ZERO标志写入Z寄存器。条件转移指令使用Z标志决定是否转移,其它指令不影响Z寄存器。处理机的指令系统及指令格式如表6.1所示。 表6.1 流水线处理机的指令系统和指令格式 31 26 25 21 20 16 15 5 4 0 指令 意义 00 0000 rd rs1 rs2 And rd,rs1,rs2 寄存器与寄存器 00 0001 rd rs1 imme Andi rd,rs1,imme 寄存器与立即数 00 0010 rd rs1 Rs2 or rd rs1,rs2 寄存器或寄存器 00 0011 rd rs1 imme ori rd,rs1,imme 寄存器或立即数 00 0100 rd rs1 rs2 add rd,rs1,rs2 寄存器加寄存器 00 0101 rd rs1 imme addi rd,rs1,imme 寄存器加立即数 00 0110 rd rs1 rs2 sub rb,rs1 rs2 寄存器减寄存器 00 0111 00 1000 00 1001 rd rd rd rs1 rs1 rs1 imme imme imme subi rd,rs1,imme load rd,immme(rs1) store rd,imme(rs1) 寄存器减立即数 从存储器读数据 向存储器写数据 00 1010 00 1011 00 1100 disp disp disp bne disp beq disp branch disp 结果非0时转移 结果为0时转移 无条件转移 这些指令执行时用到的主要功能部件和它们所需的时间如下: 指令存储器和数据存储器:10ns;ALU和地址加法器:10ns;寄存器堆:5ns;假

文档评论(0)

xuefei111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档