- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阵列处理机曹强计算机学院武汉光电国家实验室信息
12.3 阵列处理机实例 可把大于16的任意长度的向量按16个分量的标准长度分为若干段,依次在时间上重叠起来进行处理。 实现不同向量指令的重叠执行。 数据保存在由17个存储体组成的并行存储器中,每个存储体的容量可达512K字,存储周期为160ns。 (一个无冲突访问存储器 ) 控制处理机 控制并行处理机,提供与系统管理机相连的接口。 标量处理单元:处理存储在指令/控制存储器中的全部操作系统和用户程序的指令。 12.3 阵列处理机实例 全部的向量指令以及某些成组运算的标量指令被送给并行处理机控制器。在经过合格性检查之后,并行处理机控制器将指令转换为微操作序列去控制16个AE操作。 指令/控制存储器的容量为256K字,存储周期为160ns,字长为56位,其中8位是校验位,提供单错校正和双错检测的能力。 控制维护单元:系统管理机与控制处理机的接口,用来对控制处理机进行初始化以及监控命令的通信和维护。 12.3 阵列处理机实例 文件存储器 BSP直接控制下的唯一外围设备。 BSP程序执行过程中所产生的暂存文件和输出文件都是先存放在文件存储器中,然后才被送给系统管理机,输出给用户。 文件存储器的数据传输率较高,大大缓解了I/O受限问题 。 BSP并行存储器 由17个存储体组成 可以实现无冲突访问 12.3 阵列处理机实例 实现无冲突访问的硬件支持: 质数个存储器端口(存储体数是质数17) 存储端口和AE之间的交叉开关(对准网络) 特殊的存储器地址生成机构 讨论一台含N个AE和M个存储体的类BSP机的情况。 地址映像规则 先将二维数组按列优先或者按行优先的顺序变换为一维数组,以形成一个一维线性地址空间,地址用A表示。 然后将地址A变换成并行存储器地址(i,j)。 其中:j 是存储体体号, j=A (mod M) 12.3 阵列处理机实例 i:在相应存储体内的地址,i= 。 存储体的个数M是一个质数。 一个比较简单的例子 设并行存储器的体数M=7(质数),运算单元数N=6。 考虑下述4×5的数组: 12.3 阵列处理机实例 按上述地址映像规则,将这个4×5二维数组在M=7、N=6的并 行存储器中存储的情况 : 以Illiac Ⅳ为例,讨论阵列处理机的算法。 有限差分问题 把一个有规则的网格覆盖在整个场域上,用网格点上的变量值写出差分方程组以代替场方程来进行计算。 描述平面场的拉普拉斯方程 12.4 阵列处理机的并行算法举例 12.4 阵列处理机的并行算法举例 将二阶偏导数表示为差分形式 代入原方程,则可得有限差分计算公式 (x,y):平面网格点坐标 h:网格间距 12.4 阵列处理机的并行算法举例 差分法求解的精度与网格间距有直接的关系,网格越小,精度越高,但求解所花费的时空开销越大。 Illiac Ⅳ在计算时,是把内部网格点分配给各个处理单元的。因此,上述计算过程可以并行地完成,从而大幅度地提高处理速度。 矩阵加 考虑两个8×8的矩阵A和B的相加,所得结果矩阵C也 是一个8×8的矩阵。 12.4 阵列处理机的并行算法举例 把A、B、C中位于相应位置的分量存放在同一PEM内。 假设: A的分量在全部64个PEM中存放的单元地址都是α; B的全部分量的地址都是α+1; C的全部分量的地址都是α+2。 用3条Illiac Ⅳ的汇编指令就可以实现矩阵相加。 12.4 阵列处理机的并行算法举例 LDA ALPHA ;全部A的分量由PEMi送PEi的累加器RGAi ADRN ALPHA+1 ;全部B的分量与(RGAi)进行浮点加, 结果送RGAi STA ALPHA+2 ;全部(RGAi)由PEi送PEMi的α+2单元 矩阵相加存储器分配举例 12.4 阵列处理机的并行算法举例 矩阵乘 设A、B和C为3个8×8的二维矩阵。若给定A和B,则 C=A*B的64个分量可利用下列公式计算。 0 ≤i, j≤7 12.4 阵列处理机的并行算法举例 在SISD计算机上求解,执行下列FORTRAN程序: DO 10 I=0,7 DO 10 J=0,7 C(I,J)=0
您可能关注的文档
- 长大后我就成了你.ppt
- 长度单位的认识练习.ppt
- 长恨歌.ppt
- 长征精神代代传.ppt
- 长度时间及其测量ppt.ppt
- 长度时间及其测量.ppt
- 长方体和正方体体积统一公式.ppt
- 长文档编辑.ppt
- 长方体和正方体的表面积.ppt
- 长恨歌课件.ppt
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)