- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 指令级并行的开发
——软件方法
;6.1 基本指令调度及循环展开
6.2 跨越基本块的静态指令调度
6.3 静态多指令流出:VLIW技术
6.4 显式并行指令计算EPIC
6.5 开发更多的指令级并行
6.6 实例:IA-64体系结构
;指令调度:找出不相关的指令序列,让它们在流水线上重叠并行执行。
制约编译器指令调度的因素
程序固有的指令级并行
流水线功能部件的延迟; 表6.1本节使用的浮点流水线的延迟
;;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;6.1 基本指令调度及循环展开;循环展开
把循环体的代码复制多次并按顺序排放, 然后相应调整循环的结束条件。
开发循环级并行的有效方法
例6.2 将例6.1中的循环展开3次得到4个循环体,然后对展开后的指令序列在不调度和调度两种情况下,分析代码的性能。假定R1的初值为32的倍数,即循环次数为4的倍数。消除冗余的指令,并且不要重复使用寄存器。 ;展开后没有调度的代码如下(需要分配寄存器);
调度后的代码如下:;6.1 基本指令调度及循环展开;概述
目标:在保持原有数据相关和控制相关不变的前提下,尽可能地缩短包含分支结构的代码段的总执行时间。
单流出处理器——减少指令数
多流出处理器——缩短关键路径长度
基本思想:在循环体内的多个基本块间移动指令,扩大那些执行频率较高的基本块的体积。;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;6.2 跨越基本块的静态指令调度;概述
踪迹(trace):程序执行的指令序列,通常由一个或多个基本块组成,trace内可以有分支,但一定不能包含循环。
踪迹调度(trace scheduling)会优化执行频率高的trace,减少其执行开销。由于需要添加补偿代码以确保正确性,那些执行频率较低的trace的开销反而会有所增加。
踪迹调度非常适合多流出处理器。
;踪迹调度的步骤
分为两步:踪迹选择和踪迹压缩
踪迹选择
从程序的控制流图中选择执行频率较高的路径,每条路径就是一条trace。
处理转移成功与失败概率相差较大的情况
循环结构:循环展开
分支结构:根据典型输入集下的运行统计信息;踪迹选择——实例分析;踪迹压缩
对已生成的trace进行指令调度和优化,尽可能地缩短其执行时间;
跨越trace内部的入口或出口调度指令时必须非常小心,有时还需要增加补偿代码 。;踪迹调度的性能特点
踪迹调度能够提升性能的最根本原因在于选出的trace都是执行频率很高的路径,减少它们的执行开销有助于缩短程序的总执行时间。
对于某些应用,补偿代码引起的开销很有可能降低踪迹调度的优化效果。
踪迹调度会大大增加编译器的实现复杂度。;概述
在踪迹调度中,如果trace入口或出口位于trace内部,编译器生成补偿代码的难度将大大增加,而且编译器很难评估这些补偿代码究竟会带来多少性能损失。
超块(superblock)是只能拥有一个入口,但可以拥有多个出口的结构
超块的构造过程与trace相似,但怎样确保只有一个入口?;;超块调度的性能特点
尾复制技术简化了补偿代码的生成过程,并降低了指令调度的复杂度。
超块结构目标代码的体积也大大增加。
补偿代码的生成使得编译过程更加复杂,而且由于无法准确评估由补偿代码引起的时间开销,这限制方法超块调度的应用范围。;VLIW vs. 超标量
在动态调度的超标量处理器中,相关检测和指令调度基本都由硬件完成。
在静态调度的超标量处理器中,部分相关检测和指令调度工作交由编译器完成。
在VLIW处理器中,相关检测和指令调度工作全部由编译器完成,它需要更“智能”的编译器。;实例分析 ;6.3 静态多指令流出——VLIW技术;VLIW性能分析
VLIW目标代码编码效率低
为消除流水线“空转”需要增加循环展开的次数
很难从应用程序中找到足够多的并行指令填满VLIW指
令中的每一个slot
VLIW流水线的互锁机制
VLIW处理器中没有实现任何相关检测逻辑,而是靠互
锁机制保证执行结果的正确
这种简单的互锁机制将造成较大的开销
目标代码兼容性差
二进制翻译;性能比较——多流出处理器 vs. 向量处理器
即使对于一些结构不规则的代码,多流出处理器也能从中挖掘出一些指令级并行。
多流出处理器对存储系统没有过高的要求,价格较便宜、由Cache和主存构成的多层次存储子系统即可满足其对性能的要求。;超标量和VLIW结构都存在严重不足
超标量硬件复杂度太高,8流出成为极限;
VLIW存在代码兼容问题,编译器智能程度不够。
EPIC技术在VLIW基础上融合了超标量的一些优点
编译器通过踪迹调度、超块调
文档评论(0)