微处理器系统结构与嵌入式系统-第二单元.pptVIP

微处理器系统结构与嵌入式系统-第二单元.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流水线技术 可通过分割逻辑,插入缓冲寄存器(流水线Reg)来构建 * * / 50 指令时空图 顺序执行 4级流水线执行 流水线满载 * * / 50 更细的流水线 取指(FI) 指令译码(DI) 计算操作数地址(CO) 取操作数(FO) 执行指令(EI) 写操作数(WO) */86 * * / 50 流水线CPU的特点 优点: 通过指令级并行来提高性能。 缺点: 增加了硬件成本。 流水寄存器会引入延迟和时钟偏移,这些额外开销会使每条指令的执行时间有所增加,同时限制了流水线的深度。 流水线中各段的操作存在关联(dependence)时可能会引起流水线中断,从而影响流水线的性能和效率。 * */86 * * / 50 流水线冲突 理想流水线的性能:每个时钟周期完成一条指令 实际流水机器中可能存在冒险(hazard)导致停顿: ① 数据冲突(如后面的计算要用到前面的结果) 定向技术可将结果数据从其产生的地方直接传送到所有需要它的功能部件 编译器可利用流水线调度(scheduling)技术来重新组织指令顺序 ②结构冲突(硬件资源不够) 增加额外的同类型资源 改变资源的设计使其能被同时使用 ③控制冲突(分支等跳转指令引起 ) 可采用分支预测及预测执行技术最大限度地使处理器各部分保持运行状态。 多端口的寄存器堆 哈佛结构存储器、超标量 * */86 * * / 50 流水线数据冲突及乱序执行 * * / 50 流水线结构冲突及超标量流水线 ? 有5个执行单元的超标量流水线 有2套硬件的超标量流水线CPU 共用一个取指单元的5段双流水线 * * * / 50 超标量CPU的体系结构 超标量技术:可在一个时钟周期内对多条指令进行并行处理,使CPI小于1; 特点:处理器中有两个或两个以上的相同的功能部件; 要求操作数之间必须没有相关性; 整数指令 浮点指令 * * * / 50 超标量处理机 一般概念性结构 instruction fetching 多个流水线读取及转移预测逻辑 instruction decoding 并行译码器,预译码技术 instruction dispatching 动态规划 instruction execution 多个流水线功能单元 instruction completion 暂存结果数据 instruction retiring 真正更新Reg和Mem中的结果数据 * 超标量结构机器的例子 两条输入流水线 三条执行流水线 每个时钟周期可从存储器中获取两条指令 用于执行不需要访问存储器的指令 可处理所有需要或不需要访问存储器的指令 可用于进行乘、除类较复杂的算术运算 决定应使用哪一条执行流水线 * * / 50 * * / 50 和超标量处理机不同,超长指令字VLIW(Very Long Instruction Word)依靠编译器在编译时找出指令之间潜在的并行性,并通过指令调度把可能出现的数据冲突减少到最小,最后把能并行执行的多条指令组装成一条很长的指令,然后由处理机中多个相互独立的执行部件分别执行长指令中的一个操作,即相当于同时执行多条指令。 VLIW处理机能否成功,很大程度上取决于代码压缩的效率,其编译程序和体系结构的 关系非常密切,缺乏对传 统软件和硬件的兼容,因 而不大适用一般应用领域。 VLIW处理机 * * * / 50 多机并行系统 大规模并行处理机(MPP)是一种价格昂贵的超级计算机,它由许多CPU通过高速专用互联网络连接。 机群(cluster)由多台同构或异构的独立计算机通过高性能网络或局域网连在一起协同完成特定的并行计算任务。 刀片(blade)通常指包含一个或多个CPU、内存以及网络接口的服务器主板。通常一个刀片柜共享其它外部I/O和电源,而辅助存储器则有距离刀片柜较近的存储服务器提供。 网格(Network)是一组由高速网络连接的不同的计算机系统,可以相互合作也可独立工作。网格计算机将接受中央服务器分配的任务,然后在不忙的时候(如晚上或周末)执行这些任务。 * * / 50 多核处理器 多线程技术 单片多处理器(Chip MulitProcessor,CMP) 问题:晶体管数量、芯片面积及芯片发热量 多线程处理器(Multithreaded Processor) 细粒度多线程(Fine-Grail Multithreading)在每个指令中切换线程,处理器必须能在每个时钟周期切换线程。其优点是可以隐藏停顿引起的吞吐量损失;缺点是单个线程处理速度变慢了。 粗粒度多线程(Coarse-Grail Multithreading) 仅当遇到开销大的阻塞时才切换线程其缺陷在于流水线启动开销引起吞吐量损失,特别是对于短的阻塞 * * / 50 计算机体系结构

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档