- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
与单级网络互连
1。共16个PE,用单级网络互连,求与PE10相连的PE号
(1)Cube3
(2)PM2+2
(3)Cube2(Shuffle)
(4)B(η)
B是蝶形变换,η是位序颠倒置换.
2。2^m x 2^m的矩阵A(aij),行主序存在主存中,用何种单级网络经过多少
步可以实现转置。 并证明之.
3。流水线,启动循环(1,3,1,5)
? (1)求周期、平均启动距离
(2)求启动距离集
(3)插入非计算延迟单元后,启动循环(1,1,4),求禁止集具体满足的
条件
4。unrolling展开,并求调整后的循环体的执行周期.
指令生成结果 指令利用结果 延迟周期
FPALU 另一个FPALU 3
FPALU store double 2
load double FPALU 1
load double store double 0
B[i]=A[i]*a+B[i],a为常数,存放在f0中.
foo: ld f2,0(r1) ;load A[i] into f2
multd f2,f0,f2 ;A[i]*a
ld f4,0(r2) ;load B[i] into f4
addd f4,f2,f4 ;A[i]*a+B[i]
sd 0(r2),f4 ;store A[i]*a+B[i] to B[i]
addi r1,r1,#8 ;
addi r2,r2,#8 ;
sgti r3,r1,done ;to see if done?
beqz r3,foo ;go to foo if not done
将上述循环展开3次(4 copy),并进行调整,写出调整后的指令,
并求调整后的循环体的执行周期.
X处理机的频率为25Mhz
指令 百分比 cpi
i1 43% 1
i2 20% 2
i3 10% 2
i4 20% 2
i5 2% 2
i6 2% 2
i7 3% 2
5,6,7题均用到上述信息.
5.指令设计
采用2-4编码扩展,指令有8bits和16bits两种字长,均为双操作数指令,
8bits的为寄存器-寄存器寻址,16bits的为寄存器-变址(偏移量范围-128~127)
寻址,要求编码,写出可以有多少可寻址的通用寄存器,多少变址寄存器。并且
要给出各种指令具体的位的分配.
并求操作码的平均长度.
6。CPI, Sn等等的计算
优化后,i1指令减少了50%,但主频变为22Mhz.
1)求改进前后的MIPS.
2)求加速比.
3)CPI和计算机速度的关系.
4)MIPS是衡量计算机性能的准确标准吗?至少阐明两个理由.
7。流水线的Tk计算,k有什么对性能的影响,超标量的T(m,1)计算
X处理机采用5段流水线,主频变为22MHz.执行100条指令.
1)求加速比.
2)流水线段数和其性能的关系,说明理由.
3)若上述流水线采用超标量T(4,1),重做1).
8。4x4矩阵的Tompson排序
一、填空
流水线加速比计算
指令格式编码问题
用多少次混洗和交换可以实现一个PE向互连单级网络中所有16个PE的发送
给出
文档评论(0)