与单级网络互连.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
与单级网络互连

1。共16个PE,用单级网络互连,求与PE10相连的PE号 (1)Cube3 (2)PM2+2 (3)Cube2(Shuffle) (4)B(η) B是蝶形变换,η是位序颠倒置换. 2。2^m x 2^m的矩阵A(aij),行主序存在主存中,用何种单级网络经过多少 步可以实现转置。 并证明之. 3。流水线,启动循环(1,3,1,5) ? (1)求周期、平均启动距离 (2)求启动距离集 (3)插入非计算延迟单元后,启动循环(1,1,4),求禁止集具体满足的 条件 4。unrolling展开,并求调整后的循环体的执行周期. 指令生成结果 指令利用结果 延迟周期 FPALU 另一个FPALU 3 FPALU store double 2 load double FPALU 1 load double store double 0 B[i]=A[i]*a+B[i],a为常数,存放在f0中. foo: ld f2,0(r1) ;load A[i] into f2 multd f2,f0,f2 ;A[i]*a ld f4,0(r2) ;load B[i] into f4 addd f4,f2,f4 ;A[i]*a+B[i] sd 0(r2),f4 ;store A[i]*a+B[i] to B[i] addi r1,r1,#8 ; addi r2,r2,#8 ; sgti r3,r1,done ;to see if done? beqz r3,foo ;go to foo if not done 将上述循环展开3次(4 copy),并进行调整,写出调整后的指令, 并求调整后的循环体的执行周期. X处理机的频率为25Mhz 指令 百分比 cpi i1 43% 1 i2 20% 2 i3 10% 2 i4 20% 2 i5 2% 2 i6 2% 2 i7 3% 2 5,6,7题均用到上述信息. 5.指令设计 采用2-4编码扩展,指令有8bits和16bits两种字长,均为双操作数指令, 8bits的为寄存器-寄存器寻址,16bits的为寄存器-变址(偏移量范围-128~127) 寻址,要求编码,写出可以有多少可寻址的通用寄存器,多少变址寄存器。并且 要给出各种指令具体的位的分配. 并求操作码的平均长度. 6。CPI, Sn等等的计算 优化后,i1指令减少了50%,但主频变为22Mhz. 1)求改进前后的MIPS. 2)求加速比. 3)CPI和计算机速度的关系. 4)MIPS是衡量计算机性能的准确标准吗?至少阐明两个理由. 7。流水线的Tk计算,k有什么对性能的影响,超标量的T(m,1)计算 X处理机采用5段流水线,主频变为22MHz.执行100条指令. 1)求加速比. 2)流水线段数和其性能的关系,说明理由. 3)若上述流水线采用超标量T(4,1),重做1). 8。4x4矩阵的Tompson排序 一、填空 流水线加速比计算 指令格式编码问题 用多少次混洗和交换可以实现一个PE向互连单级网络中所有16个PE的发送 给出

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档