面向高密度计算的多核处理器结构的研究.pdf

面向高密度计算的多核处理器结构的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 摘 要 人类对计算能力的需求不但推动着高性能计算技术的不断发展,还推动着微 处理器技术的发展。当前的超级计算机中普遍使用了高性能的微处理器,因此微 处理器的性能对超级计算机和高性能计算有着至关重要的作用。在高性能计算中 有一大类应用是计算和访存密集型的应用,如科学和工程计算,数值模拟和信号 处理等。如何对多核处理器上此类应用程序进行性能分析和结构优化,一直是众 多科研工作者的研究重点。 依托国产高性能多核通用处理器研制项目,本文面向高密度计算类应用,对 通用处理器性能分析方法、结构优化以及高密度计算性能优化等问题进行了深入 的探讨和研究。 本文的主要工作和创新如下: 1. 一种用于指导处理器结构优化的性能建模及分析方法 现有的性能分析通常基于仿真拟合或宏观建模的方法,难以具体地刻画结构 参数对性能的影响,对处理器结构优化的指导作用有限。为了深刻地揭示处理器 结构参数与矩阵乘法性能的关系,本文通过分析矩阵乘法计算/访存行为,结合 处理器结构特点,建立了单核和多核通用处理器上的矩阵乘法性能模型。在此基 础上,给出了矩阵乘法最优性能下处理器结构参数应满足的必要条件,包括寄存 器个数和访存带宽的理论下界。以 Intel Core i7 和 Godson-3A 两种典型的通用处 理器为验证平台对性能模型进行了验证,实验结果表明,在四核矩阵乘法中,该 模型的准确度分别达到 90%和 86% 以上。本文提出的性能模型,可用于分析处 理器在计算和访存中的瓶颈,并可用于指导处理器的优化设计。 2. 一种乘加-shuffle 融合的浮点向量乘加指令 根据本文提出的性能模型,对基于向量扩展处理器的应用程序进行了性能分 析。分析表明,在设计基于向量扩展处理器的应用程序时,需要大量的数据 shuffle 指令来配合向量运算指令,严重地影响了程序性能。为此,本文提出一种新的向 量指令,具有向量乘加指令和 shuffle 指令的功能,使用该指令可以完全消除 shuffle 指令,减少 33% 以上的程序长度,与使用 shuffle 指令的普通向量扩展处 理器相比,核心程序性能提高 33% 以上,并且降低了功耗开销。 3. 一种新的计算/访存分离的处理器结构 为了满足高密度计算应用的要求,本文基于性能模型,针对访存瓶颈提出了 一种新的计算/访存分离的处理器结构。本文借鉴了传统计算/访存分离结构的思 想,在多核通用处理器存储结构的基础上,增加了一个访存协处理器。当进行高 密度计算时,由访存协处理器负责在寄存器和 L2 cache/ 内存之间、L2 cache 和内 I 摘 要 存之间传输数据,或对数据进行预取。访存协处理器的使用能够有效隐藏访存延 迟,提高访存带宽,与 Godson-3A 相比,访存带宽提高了一倍。 4. 基于 Godson-3B 处理器结构实现了高效的矩阵乘法 在优化的龙芯处理器结构上,为了获得高效的矩阵乘法,本文针对矩阵乘法 中A 、B 和 C 三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化, 并使用访存协处理器对数据进行预取,隐藏访存时间。优化后的矩阵乘法性能比 Godson-3A 提高了 10 倍以上,达到 119.0Gflops,效率为 93.0% ;性能/功耗比为 2.98Gflops/W,优于当前主流处理器。 关键词: 高密度计算 多核 性能分析方法 结构优化 性能优化 融合指令 计算/访存分离 矩阵乘法 II Abstract ABSTRACT The demand for computing capability not only promotes the development of high p

文档评论(0)

hblybd123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档