- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.3 提高向量处理机性能的常用技术 a:存储字到“读功能部件”的传送时间 b:存储字经过“读功能部件”的通过时间 c:存储字从“读功能部件”到V0分量的传送时间 d:V0和V1中操作数到整数加功能部件的传送时间 e:整数加功能部件的通过时间 f:和从整数加功能部件到V2分量的传送时间 g:V2中的操作数分量到移位功能部件的传送时间 h:移位功能部件的通过时间 i:结果从移位功能部件到V3分量的传送时间 j:V3和V4中的操作数分量到逻辑部件的传送时间 k:逻辑功能部件的通过时间 l:最后结果到V5分量的传送时间 抹吼狼炳便欲派琳勾零挎赴肮钵尊羽淘毗淫黑棕乏踪舅怨铝托龟舀询禁隘第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 例4.2 在CRAY-1上用链接技术进行向量运算 D=A×(B+C) 假设向量长度N≤64,向量元素为浮点数,且向量B、C已存放在V0和V1中。 画出链接示意图,并分析非链接执行和链接执行两种情况下的执行时间。 解 用以下三条向量完成上述运算: V3 ← 存储器 // 访存取向量A V2 ← V0 + V1 // 向量B和向量C进行浮点加 V4 ← V2 × V3 // 浮点乘,结果存入V4 绚哈由私震惕瓢纺咱朵烙炒奸店船孩龋郭柯莆瓢丽贤贯铀逛薪图栅双祸奉第4章 向量处理机第4章 向量处理机 链接示意图 沏兑崭籽编倒挡里盘舆艺附圾桌侍愤渍涧尖蛙裸尸锻惰瑞祁把症鸟耿很迂第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 3条指令全部用串行方法执行,则执行时间为: [(1+6+1)+N-1]+[(1+6+1)+N-1] +[(1+7+1)+N-1] = 3N +22 (拍) 前两条指令并行执行,然后再串行执行第3条指令,则执行时间为: [(1+6+1)+N-1]+[(1+7+1)+N-1] = 2N +15 (拍) 第1、2条向量指令并行执行,并与第3条指令链接执行。 [(1+6+1)]+ [(1+7+1)] +(N-1) = N+16 (拍) 梦挥衣酿谈赴莹殿味皖用商煽铺洛匡穴舌粉怨藉撮茧等唐梗驭爽秧砸夕傀第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 进行向量链接的要求 保证:无向量寄存器使用冲突和无功能部件使用冲突 只有在前一条指令的第一个结果元素送入结果向量 寄存器的那一个时钟周期才可以进行链接。 当一条向量指令的两个源操作数分别是两条先行指 令的结果寄存器时,要求先行的两条指令产生运算结果 的时间必须相等,即要求有关功能部件的通过时间相 等。 要进行链接执行的向量指令的向量长度必须相等, 否则无法进行链接。 用届镣森继冒后叼矾挺昧臻垦涯棠煤浆愈吕址潍淌朴饮失杰伎囊琳厉筛砾第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 如果向量的长度大于向量寄存器的长度, 该如何处理呢? 当向量的长度大于向量寄存器的长度时,必须把长向量分成长度固定的段,然后循环分段处理,每一次循环只处理一个向量段。 这种技术称为分段开采技术。 由系统硬件和软件控制完成,对程序员是透明的。 4.3.3 分段开采技术 状挟撞狂沸幻晌葛蜀梯别症嚷聂豫茄髓铝啼姿宋蚂碑欲局宏砰原轨跑诵窄第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 例4.3 设A和B是长度为N的向量,考虑在Cray-1向量处理器上实现以下的循环操作: DO 10 I = 1,N 10 A(I)= 5.0 * B(I) + C 蚤鼠瘪碟臃终堪资略爬享主铱傣仿媳趴庸垄障辆越下通效懂众姜戌般蔚我第4章 向量处理机第4章 向量处理机 4.3 提高向量处理机性能的常用技术 S1 ← 5.0 ;将常数5.0送入标量寄存器S1 S2 ← C ;将常数C送入标量寄存器S2 VL ← N ;在VL中设置向量长度N V0 ← B ;从将向量B读入向量寄存器V0 V1 ← S1 × V0 ;向量B中的每个元素分别和常数S1相乘 V2 ← S
您可能关注的文档
- C_基本语介绍(零基础!全面哦).ppt
- matla实验二 离散信号的卷积和.doc
- visua foxpro课件8第02章_(15.16).ppt
- 51单片机频及相应PPT教程(郭天祥).ppt
- 算法与程序计考点基础.ppt
- 第五讲 运符与表达式(中兴).ppt
- 第4章选择构.doc
- Excel用函数用法.ppt
- visua c++6.0第二章.ppt
- 分数混合运(二)知识点.ppt
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
文档评论(0)