面向高密度计算的多核处理器结构的研究.pdf

下载文档 降价啦

3
0
约15.17万字
约 102页
2016-01-14 发布于安徽
举报
版权申诉
保障服务

面向高密度计算的多核处理器结构的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要人类对计算能力的需求不但推动着高性能计算技术的不断发展，还推动着微处理器技术的发展。当前的超级计算机中普遍使用了高性能的微处理器，因此微处理器的性能对超级计算机和高性能计算有着至关重要的作用。在高性能计算中有一大类应用是计算和访存密集型的应用，如科学和工程计算，数值模拟和信号处理等。如何对多核处理器上此类应用程序进行性能分析和结构优化，一直是众多科研工作者的研究重点。依托国产高性能多核通用处理器研制项目，本文面向高密度计算类应用，对通用处理器性能分析方法、结构优化以及高密度计算性能优化等问题进行了深入的探讨和研究。本文的主要工作和创新如下： 1. 一种用于指导处理器结构优化的性能建模及分析方法现有的性能分析通常基于仿真拟合或宏观建模的方法，难以具体地刻画结构参数对性能的影响，对处理器结构优化的指导作用有限。为了深刻地揭示处理器结构参数与矩阵乘法性能的关系，本文通过分析矩阵乘法计算/访存行为，结合处理器结构特点，建立了单核和多核通用处理器上的矩阵乘法性能模型。在此基础上，给出了矩阵乘法最优性能下处理器结构参数应满足的必要条件，包括寄存器个数和访存带宽的理论下界。以 Intel Core i7 和 Godson-3A 两种典型的通用处理器为验证平台对性能模型进行了验证，实验结果表明，在四核矩阵乘法中，该模型的准确度分别达到 90%和 86% 以上。本文提出的性能模型，可用于分析处理器在计算和访存中的瓶颈，并可用于指导处理器的优化设计。 2. 一种乘加-shuffle 融合的浮点向量乘加指令根据本文提出的性能模型，对基于向量扩展处理器的应用程序进行了性能分析。分析表明，在设计基于向量扩展处理器的应用程序时，需要大量的数据 shuffle 指令来配合向量运算指令，严重地影响了程序性能。为此，本文提出一种新的向量指令，具有向量乘加指令和 shuffle 指令的功能，使用该指令可以完全消除 shuffle 指令，减少 33% 以上的程序长度，与使用 shuffle 指令的普通向量扩展处理器相比，核心程序性能提高 33% 以上，并且降低了功耗开销。 3. 一种新的计算/访存分离的处理器结构为了满足高密度计算应用的要求，本文基于性能模型，针对访存瓶颈提出了一种新的计算/访存分离的处理器结构。本文借鉴了传统计算/访存分离结构的思想，在多核通用处理器存储结构的基础上，增加了一个访存协处理器。当进行高密度计算时，由访存协处理器负责在寄存器和 L2 cache/ 内存之间、L2 cache 和内 I 摘要存之间传输数据，或对数据进行预取。访存协处理器的使用能够有效隐藏访存延迟，提高访存带宽，与 Godson-3A 相比，访存带宽提高了一倍。 4. 基于 Godson-3B 处理器结构实现了高效的矩阵乘法在优化的龙芯处理器结构上，为了获得高效的矩阵乘法，本文针对矩阵乘法中A 、B 和 C 三个矩阵各自的访存特点，采用不同的方法对其访存行为进行优化，并使用访存协处理器对数据进行预取，隐藏访存时间。优化后的矩阵乘法性能比 Godson-3A 提高了 10 倍以上，达到 119.0Gflops，效率为 93.0% ；性能/功耗比为 2.98Gflops/W，优于当前主流处理器。关键词: 高密度计算多核性能分析方法结构优化性能优化融合指令计算/访存分离矩阵乘法 II Abstract ABSTRACT The demand for computing capability not only promotes the development of high p