- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统结构随清华大学出本社
6.4 向量处理机实例
6.4.1 典型向量处理机
6.4.2 CRAY Y-MP向量处理机
6.4.3 向量协处理器
向量处理机主要出自美国和日本。
美国著名的向量计算机公司有:CRAY、CDC、TI等
日本公司有:NEC、Fujitsu、Hitachi等;CRAY 1;CRAY 1;Date;CDC 1604;Fujitsu VPP5000;机器型号;机器型号;机器型号;机器型号;6.4.2 CRAY Y-MP向量处理机
Cray Y-MP 816由1至8台处理机组成,多个处理机共享中央存储器、I/O子系统、处理机通信子系统和实时钟。
中央存储器由256个交叉访问的存储体组成。每个处理机对4个存储器端口的交叉访问。CPU的时钟周期为6ns。
4个存储器端口允许处理机同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。;每个CPU由14个功能部件组成,分为向量、标量、地址和控制四个子系统。
使用了大量地址寄存器、标量寄存器、向量寄存器、中间寄存器和临时寄存器。
可以实现功能流水线灵活的链接。
I/O子系统支持三类通道,传输速率分别为6兆字节/秒,100兆字节/秒和1G字节/秒。;Date;6.4.3 向量协处理器
以通用中小型机,或微机作为主机;向量处理部件作为外围设备,用以加速向量的处理速度。价格低。
向量协处理器是为中小型用户设计的,解决科学计算中大量向量处理任务的一种装置。
与各种不同主机相连的向量协处理器,价格和功能的变化范围很大。;FPS-164是最典型的向量协处理器,美国浮点系统公司生产。内含三个向量处理器,每个向量处理器有两个乘加部件,两组向量寄存器,两组标量寄存器。
每个乘加部件每个周期能输出一个结果。
向量寄存器:2组,每组4个向量寄存器,每个向量寄存器可存放2K个操作数,每个操作数4个字节。;标量运算部件;常用运算:di=ai×b+ci
避免中间结果存放寄存器或存储器;运算过程:标量处理器把原始数据装入向量寄存器,把标量数据和指令播送到全部向量处理器。向量处理器就同步地运算,但它们处理的数据是各不相同的。
向量操作可以和标量处理器中的标量操作同时进行。
向量协处理器特别适合于大规模的数值处理,用户使用现有的处理机作为主机。配合需要数量的向量协处理器,达到较高的性能价格比。;6.5 向量处理机的性能评价;1、向量指令处理时间Tvp
执行一条向量长度为n的向量指令的时间Tvp为:
Tvp=Ts + Tvf + (n - 1) Tc
其中:Ts为向量流水线的建立时间。
Tvf为向量流水线的流过时间。
Tc为流水线“瓶颈”段的执行时间。
如果每段执行时间都等于一个时钟周期,则有:
Tvp=[s + e + (n - 1)] ?
其中: n:向量长度 ?:时钟周期长度。 s:向量流水线建立时间(时钟周期数)
e:向量流水线流过时间(时钟周期数)。;具体执行时:
把几条能在一个时钟周期内同时开始执行的向量指令称为一个编队;
同一个编队中的指令一定不存在功能部件冲突和数据相关
;例1:假设向量处理机中功能部件的启动开销为:取数和存数部件的12个时钟周期、乘法部件为7个时钟周期、加法部件为6个时钟周期。先把序列向量操作分成编队,然后计算每个编队的开始时间、获得第一个结果元素的时间和获得最后一个结果元素的时间。
程序:
LV V1, Rx ;取向量x
MULTSV V2, F0, V1 ;向量和标量相乘
LV V3, Ry ;取向量Y
ADDV V4, V2, V3 ;加法
SV Ry, V4 ;存结果;解:第一条指令LV为第一个编队。
MULTSV指令和第二条LV指令为第二个编队。
ADDV指令为第三个编队。
SV指令为第四个编队。编队建立时间设为1。
下表为没有实行链接时的执行情况(书上略有错);如果LOAD、STORE、ADD、MULTI分别为四条流水线,采用向量链接技术(不考虑访问存储器的冲突),实际上变成2个编队。
这时需要:
;如果考虑向量长度大于向量寄存器长度时,则需要分段开采。向量长度为n的一组向量操作的整个执行时间为:
其中:Tloop为执行标量代码的开销,Tstart为每个编队的向量启动开销, Tchime为编队数,MVL是向量寄存器的长度。 Tloop可以看作是一个常数,Cray 1机的 Tloop 约等于15。;例2:
在一台向量处理机上实现A=B×s操作,其中A和B是长度为200的向量,s是一个标量。向量寄存器长度为64。各功能部件的启动时间Tloop 等于15。LV启动时间12、MULTI启动时间7、SV启动时间12,
文档评论(0)