高等计算机系统结构课件.ppt

下载文档 降价啦

11
0
约4.43千字
约 45页
2017-08-23 发布于广东
举报
版权申诉
保障服务

高等计算机系统结构课件.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

高等计算机系统结构清华大学计算机科学与技术系高性能计算研究所郑纬民教授 2005年5月高等计算机系统结构第一章高等计算机的核心技术——并行处理第二章加速比性能模型与可扩展性分析第三章互连与通信第四章划分与调度第五章并行存储器系统第六章 Cache Coherence 第七章 Memory Consistency 第八章指令级并行处理第八章指令级并行处理 8.1 指令级并行概述 8.1.1 指令级并行处理 8.1.2 减少每条指令执行的平均周期数 8.1.3 改进CPI的途径 8.2 多发射结构 8.3 指令级并行的编译技术第八章指令级并行处理 8.1 指令级并行概述 8.2 多发射结构 8.2.1 流水线结构 8.2.2 超标量机的典型结构 8.2.3 VLIW机的结构框图 8.3 指令级并行的编译技术源代码源代码所需周期 C=A+B LOAD A LOAD B C=A+B STORE C 1 1 1 1 K=I+J LOAD I LOAD J K=I+J STORE K 1 1 1 1 L=M-K LOAD M L=M-K STORE L 1 1 1 Q=C*K Q=C*K STORE Q 2 1 共需14个周期压缩技术——表调度法： LOAD A LOAD B LOAD I LOAD J C=A+B LOAD M STORE C K=I+J STORE K L=M-K Q=C*K STORE L STORE Q 只需要6个周期。超标量结构、超流水线结构一般采用指令窗方法，把一段指令（长度为窗口的大小，例为8）取到窗口中，判断这段指令能否并行执行。计算机科学与技术系研究生课程 8.1 指令级并行概述 8.1.1 指令级并行处理过去25年，微机性能差不多每年以50%的速度提高：（1）由于电路速度的改进，占年增长率一半不到。（2）8位?16位?32位?64位，CISC ?RISC；（3）片上cache，FLP H/W，图形加速H/W；（4）采用流水技术（5）电路的集成度也以每年40%的比例增长 10年来：微处理器的周期从100?200ns ?少于4ns，大约降低了25倍； DRAM的访问时间从150 ?180ns ?60 ?80ns，大约3倍，需要用cache来弥补。指令级并行处理（ILPP，Instruction Level Parallel Processing）是实行低层机器操作的并行执行，如存、取、整数加和浮点乘等。通常的并行处理是指各有一大段代码在不同的处理机上运行，有些问题要得到较好的加速效果，必须重写程序，工作量大，代价昂贵，但它们能直接在ILP机上运行。因此，ILP与传统并行处理可互补。 8.1.2 减少每条指令执行的平均周期数 RISC比CISC机器的CPI（Cycles per Instruction，平均周期数）要小。 CISC一般用微码技术，一条指令往往要用好几个周期才能实现，复杂指令所需的周期数则更多，CISC机器CPI一般为4-6； RISC一般指令一个周期完成，所以CPI=1，但LOAD、STORE等指令要长些，所以RISC机器的CPI 约大于1。 RISC技术未来发展的方向是进一步减少CPI； CISC机器也在减少CPI；一些新型的微处理器的CPI（不论是RISC还是CISC），都在逐渐趋向于2和1之间。例： Intel的5MHz的80286（1986），CPI=5 10MHz的68010（1983），CPI=12 22MHz的68030（1988），CPI=5 SUN SPARC（1987），CPI=1-2 8.1.3 改进CPI的途径给定的工作频率下，要进一步减小CPI，必须进一步提高RISC内部的并行性。（1）哈佛结构：即设计分开的指令cache和数据cache，可以并行工作。（2）多端口的寄存器堆。如果一个寄存器堆有两个源操作数端口和一个目的操作数端口，那么两个源操作数可以同时取出，还可以写入或取出另一条指令的目的操作数。（3）流水线的级分得更细。（4）编译优化技术。充分利用硬件资源、优化分配寄存器。（5）超标量（super scalar）结构。即设置多个执行部件。（6）超流水线（superpipeline）结构。（7）VLIW（Very Long Instruction Word） 8.2 多