- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
摘 要
人类对计算能力的需求不但推动着高性能计算技术的不断发展,还推动着微
处理器技术的发展。当前的超级计算机中普遍使用了高性能的微处理器,因此微
处理器的性能对超级计算机和高性能计算有着至关重要的作用。在高性能计算中
有一大类应用是计算和访存密集型的应用,如科学和工程计算,数值模拟和信号
处理等。如何对多核处理器上此类应用程序进行性能分析和结构优化,一直是众
多科研工作者的研究重点。
依托国产高性能多核通用处理器研制项目,本文面向高密度计算类应用,对
通用处理器性能分析方法、结构优化以及高密度计算性能优化等问题进行了深入
的探讨和研究。
本文的主要工作和创新如下:
1. 一种用于指导处理器结构优化的性能建模及分析方法
现有的性能分析通常基于仿真拟合或宏观建模的方法,难以具体地刻画结构
参数对性能的影响,对处理器结构优化的指导作用有限。为了深刻地揭示处理器
结构参数与矩阵乘法性能的关系,本文通过分析矩阵乘法计算/访存行为,结合
处理器结构特点,建立了单核和多核通用处理器上的矩阵乘法性能模型。在此基
础上,给出了矩阵乘法最优性能下处理器结构参数应满足的必要条件,包括寄存
器个数和访存带宽的理论下界。以 Intel Core i7 和 Godson-3A 两种典型的通用处
理器为验证平台对性能模型进行了验证,实验结果表明,在四核矩阵乘法中,该
模型的准确度分别达到 90%和 86% 以上。本文提出的性能模型,可用于分析处
理器在计算和访存中的瓶颈,并可用于指导处理器的优化设计。
2. 一种乘加-shuffle 融合的浮点向量乘加指令
根据本文提出的性能模型,对基于向量扩展处理器的应用程序进行了性能分
析。分析表明,在设计基于向量扩展处理器的应用程序时,需要大量的数据 shuffle
指令来配合向量运算指令,严重地影响了程序性能。为此,本文提出一种新的向
量指令,具有向量乘加指令和 shuffle 指令的功能,使用该指令可以完全消除
shuffle 指令,减少 33% 以上的程序长度,与使用 shuffle 指令的普通向量扩展处
理器相比,核心程序性能提高 33% 以上,并且降低了功耗开销。
3. 一种新的计算/访存分离的处理器结构
为了满足高密度计算应用的要求,本文基于性能模型,针对访存瓶颈提出了
一种新的计算/访存分离的处理器结构。本文借鉴了传统计算/访存分离结构的思
想,在多核通用处理器存储结构的基础上,增加了一个访存协处理器。当进行高
密度计算时,由访存协处理器负责在寄存器和 L2 cache/ 内存之间、L2 cache 和内
I
摘 要
存之间传输数据,或对数据进行预取。访存协处理器的使用能够有效隐藏访存延
迟,提高访存带宽,与 Godson-3A 相比,访存带宽提高了一倍。
4. 基于 Godson-3B 处理器结构实现了高效的矩阵乘法
在优化的龙芯处理器结构上,为了获得高效的矩阵乘法,本文针对矩阵乘法
中A 、B 和 C 三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化,
并使用访存协处理器对数据进行预取,隐藏访存时间。优化后的矩阵乘法性能比
Godson-3A 提高了 10 倍以上,达到 119.0Gflops,效率为 93.0% ;性能/功耗比为
2.98Gflops/W,优于当前主流处理器。
关键词: 高密度计算 多核 性能分析方法 结构优化 性能优化 融合指令
计算/访存分离 矩阵乘法
II
Abstract
ABSTRACT
The demand for computing capability not only promotes the development of high
p
文档评论(0)