GPU工作原理简介.docVIP

下载本文档

11
0
约3.8千字
约 8页
2017-08-23 发布于河南
举报
版权申诉

GPU工作原理简介.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GPU工作原理简介计算机0601 沈凯杰【引言】在GPU出现以前，显卡和CPU的关系有点像“主仆”，简单地说这时的显卡就是画笔，根据各种有CPU发出的指令和数据进行着色，材质的填充、渲染、输出等。较早的娱乐用的3D显卡又称“3D加速卡”，由于大部分坐标处理的工作及光影特效需要由CPU亲自处理，占用了CPU太多的运算时间，从而造成整体画面不能非常流畅地表现出来。例如，渲染一个复杂的三维场景，需要在一秒内处理几千万个三角形顶点和光栅化几十亿的像素。早期的3D游戏，显卡只是为屏幕上显示像素提供一个缓存，所有的图形处理都是由CPU单独完成。图形渲染适合并行处理，擅长于执行串行工作的CPU实际上难以胜任这项任务。所以，那时在PC上实时生成的三维图像都很粗糙。不过在某种意义上，当时的图形绘制倒是完全可编程的，只是由CPU来担纲此项重任，速度上实在是达不到要求。NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Vertex Shader（定点着色器）完成。光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texture mapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texture mapping unit）即是用来完成此项工作。像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）完成。最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。如今的游戏，单单从图象的生成来说大概需要下面四个步骤： 1、Homogeneous coordinates（齐次坐标） 2、Shading models（阴影建模） 3、Z-Buffering（Z-缓冲） 4、Texture-Mapping（材质贴图）在这些步骤中，显示部分（GPU）只负责完成第三、四步，而前两个步骤主要是依靠 CPU 来完成。而且，这还仅仅只是3D图象的生成，还没有包括游戏中复杂的AI运算。场景切换运算等等……无疑，这些元素还需要CPU去完成，这就是为什么在运行《魔兽世界》的时候，当场景切换时再强劲的显卡都会出现停顿的现象。首先从硬盘中读取模型， CPU分类后将多边形信息交给GPU，GPU再时时处理成屏幕上可见的多边形，但是没有只有模型出来后GPU将模型数据放进，显卡同时也为模型贴材质，给模型上颜色。CPU相应从中获取多边形的信息。然后计算光照后产生的影子的轮廓CPU计算出后，显卡的工作又有了，那就是为影子中填充深的颜色这一点要注意的是，无论多牛的游戏家用显卡，光影都是CPU计算的，GPU只有2个工作，1多边形生成。2为多边形上颜色。传统的GPU基于SIMD的架构。SIMD即Single Instruction Multiple Data，单指令多数据。其实这很好理解，传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4D ALU。需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D 3D指令时效率则会高不少，例如如下指令： ADD R0.xyz , R0,R1 //此指令是将R0,R1矢量的