- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
为什么A卡的流 处理器要比N卡多很多
泡泡网 显卡频道3月1日 经常有网友问这样的问题:“为什么 ATI 显卡的流 处理器要比 NVIDIA多那么多,而性能却差不多呢?”这个问题往简单里说就是它们的算法不同,当然这是不负责任的说法。往复杂里说那么三言两语就讲不清楚了,因为涉及到双方GPU的核心架构以及截然相反的设计理念。
在DX9时代,大家都是通过“(像素)管线”来衡量 显卡的性能等级,而到了DX10时代,统一渲染架构的引入使得 显卡不再区分“像素”和“顶点”,因此“管线”这种说法逐渐淡出了大家的视野,取而代之的是全新的“流 处理器”,“流 处理器”的数量直接影响 显卡的性能。
从DX10到DX10.1再到DX11,转眼间 显卡已经发展到了第四代,但实际上不管 ATI还是 NVIDIA,它们的新一代 显卡都是在最早的DX10 显卡架构基础上不断优化、改进、扩充而来的。换句话说,即便是到了DX11时代, NVIDIA与 ATI的性能大战依然是G80与R600架构的延续。
那么,我们就很有必要对双方的GPU图形架构进行深入研究,详细分析各自的优势与劣势,并且顺便解答网友心中的疑惑:为什么A卡的流 处理器要比N卡多很多?
管线的由来和传统矢量运算单元的弊端
● “管线”的由来——1个时钟周期4次运算
在图形处理中,最常见的像素都是由RGB(红绿蓝)三种颜色构成的,加上它们共有的信息说明(Alpha),总共是4个通道。而顶点数据一般是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换,GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的算数逻辑运算器(ALU)。
传统像素管线/Shader示意图
数据的基本单元是Scalar(标量),就是指一个单独的值,GPU的ALU进行一次这种变量操作,被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算,所以ALU的操作被称做4D Vector(矢量)操作。
SIMD架构示意图
一个矢量就是N个标量,一般来说绝大多数图形指令中N=4。所以,GPU的ALU指令发射端只有一个,但却可以同时运算4个通道的数据,这就是SIMD(Single Instruction Multiple Data,单指令多数据流)架构。
● “管线”弊端越发明显,引入混合型设计
显然,SIMD架构能够有效提升GPU的矢量处理性能,由于顶点和像素的绝大部分运算都是4D Vector,它只需要一个指令端口就能在单周期内完成4倍运算量,效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时,效率就会下降到原来的1/4,3/4的模块被完全浪费。为了缓解这个问题, ATI和 NVIDIA在进入DX9时代后相继采用混合型设计,比如R300就采用了3D+1D的架构,允许Co-issue操作(矢量指令和标量指令可以并行执行),NV40以后的GPU支持2D+2D和3D+1D两种模式,虽然很大程度上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力,尤其是一旦遇上分支预测的情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽。
改进的管线/Shader结构
可以这么理解,传统的1条管线里面包含了4个基本运算单元,在早期这种架构的执行效率还是很高的,因为大多数程序指令都是4D的。但由于API和游戏复杂Shader指令的发展,4D指令所占比重开始下降,3D/2D/1D等混合指令频繁出现,所以传统的管线式架构效率越来越低!
G80的标量流 处理器架构
到了DX10时代,不再区分像素单元和顶点单元,还加入了新的几何着色单元,这样GPU的Shader单元不仅要处理像素和顶点操作,还要负责几何等其它操作,混合型指令所占比重越来越大,必须放弃传统的管线式架构。
● G80的标量流 处理器架构
因此, NVIDIA从G80开始架构作了变化,把原来的4D着色单元彻底打散,流 处理器不再针对矢量设计,而是统统改成了标量运算单元。每一个ALU都有自己的专属指令发射器,初代产品拥有128个这样的1D运算器,称之为流 处理器。这些流 处理器可以按照动态流控制智能的执行各种4D/3D/2D/1D指令,无论什么类型的指令执行效率都能接近于100%!
G8X家族核心架构图
如此一来,对于依然占据主流的4D矢量操作来说,G80需要让1个流 处理器在4个周期内才能完成,或者是调动4个流 处理器在1个周期内完成,那么G80的执行效率岂不是很低?没错,所以 NVIDI
您可能关注的文档
最近下载
- ISO22716化妆品良好生产规范认证实施规则.PDF
- 通桥(2018)5401-03高速铁路钢筋混凝土框架箱涵.pdf
- 哪吒2作文素材整理.docx VIP
- 2025春新教材部编版一年级语文下册全册PPT课件.pptx
- 2024年道路运输企业安全生产管理人员考试题库及答案.docx
- 2025年高考作文热点素材:火爆的《哪吒2》金句+主题运用+试题+范文+素材扩展.docx VIP
- 高考作文热点素材:《哪吒》(干货).pdf VIP
- 2025届高考语文复习:信息类文本阅读 课件(共104张PPT).pptx VIP
- 2024年中国过氧化钠市场调查研究报告.docx
- 铜管表冷器设计计算书.xls VIP
文档评论(0)