A卡-N卡 GPU架构解析.doc

下载文档 降价啦

23
0
约1.35万字
约 21页
2020-03-10 发布于浙江
举报
版权申诉
保障服务

A卡-N卡 GPU架构解析.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

为什么A卡的流处理器要比N卡多很多泡泡网显卡频道3月1日经常有网友问这样的问题：“为什么 ATI 显卡的流处理器要比 NVIDIA多那么多，而性能却差不多呢？”这个问题往简单里说就是它们的算法不同，当然这是不负责任的说法。往复杂里说那么三言两语就讲不清楚了，因为涉及到双方GPU的核心架构以及截然相反的设计理念。在DX9时代，大家都是通过“(像素)管线”来衡量显卡的性能等级，而到了DX10时代，统一渲染架构的引入使得显卡不再区分“像素”和“顶点”，因此“管线”这种说法逐渐淡出了大家的视野，取而代之的是全新的“流处理器”，“流处理器”的数量直接影响显卡的性能。从DX10到DX10.1再到DX11，转眼间显卡已经发展到了第四代，但实际上不管 ATI还是 NVIDIA，它们的新一代显卡都是在最早的DX10 显卡架构基础上不断优化、改进、扩充而来的。换句话说，即便是到了DX11时代， NVIDIA与 ATI的性能大战依然是G80与R600架构的延续。那么，我们就很有必要对双方的GPU图形架构进行深入研究，详细分析各自的优势与劣势，并且顺便解答网友心中的疑惑：为什么A卡的流处理器要比N卡多很多？管线的由来和传统矢量运算单元的弊端 ● “管线”的由来——1个时钟周期4次运算在图形处理中，最常见的像素都是由RGB（红绿蓝）三种颜色构成的，加上它们共有的信息说明（Alpha），总共是4个通道。而顶点数据一般是由XYZW四个坐标构成，这样也是4个通道。在3D图形进行渲染时，其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换，GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的算数逻辑运算器（ALU）。传统像素管线/Shader示意图数据的基本单元是Scalar（标量），就是指一个单独的值，GPU的ALU进行一次这种变量操作，被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算，所以ALU的操作被称做4D Vector（矢量）操作。 SIMD架构示意图一个矢量就是N个标量，一般来说绝大多数图形指令中N=4。所以，GPU的ALU指令发射端只有一个，但却可以同时运算4个通道的数据，这就是SIMD（Single Instruction Multiple Data，单指令多数据流）架构。 ● “管线”弊端越发明显，引入混合型设计显然，SIMD架构能够有效提升GPU的矢量处理性能，由于顶点和像素的绝大部分运算都是4D Vector，它只需要一个指令端口就能在单周期内完成4倍运算量，效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时，效率就会下降到原来的1/4，3/4的模块被完全浪费。为了缓解这个问题， ATI和 NVIDIA在进入DX9时代后相继采用混合型设计，比如R300就采用了3D+1D的架构，允许Co-issue操作（矢量指令和标量指令可以并行执行），NV40以后的GPU支持2D+2D和3D+1D两种模式，虽然很大程度上缓解了标量指令执行效率低下的问题，但依然无法最大限度的发挥ALU运算能力，尤其是一旦遇上分支预测的情况，SIMD在矢量处理方面高效能的优势将会被损失殆尽。改进的管线/Shader结构可以这么理解，传统的1条管线里面包含了4个基本运算单元，在早期这种架构的执行效率还是很高的，因为大多数程序指令都是4D的。但由于API和游戏复杂Shader指令的发展，4D指令所占比重开始下降，3D/2D/1D等混合指令频繁出现，所以传统的管线式架构效率越来越低！ G80的标量流处理器架构到了DX10时代，不再区分像素单元和顶点单元，还加入了新的几何着色单元，这样GPU的Shader单元不仅要处理像素和顶点操作，还要负责几何等其它操作，混合型指令所占比重越来越大，必须放弃传统的管线式架构。 ● G80的标量流处理器架构因此， NVIDIA从G80开始架构作了变化，把原来的4D着色单元彻底打散，流处理器不再针对矢量设计，而是统统改成了标量运算单元。每一个ALU都有自己的专属指令发射器，初代产品拥有128个这样的1D运算器，称之为流处理器。这些流处理器可以按照动态流控制智能的执行各种4D/3D/2D/1D指令，无论什么类型的指令执行效率都能接近于100%！ G8X家族核心架构图如此一来，对于依然占据主流的4D矢量操作来说，G80需要让1个流处理器在4个周期内才能完成，或者是调动4个流处理器在1个周期内完成，那么G80的执行效率岂不是很低？没错，所以 NVIDI