1_CUDA_简介探索.pptxVIP

下载本文档

6
0
约7.92千字
约 38页
2017-04-02 发布于湖北
举报
版权申诉

1_CUDA_简介探索.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CUDA简介上海大学计算机学院沈文枫孙连强 2014.6.19 上海大学计算机学院主要框架上海大学计算机学院 GPU简介用于个人计算机、工作站和游戏机的专用图像显示设备显示卡或主板集成 nVidia和ATI (now AMD)是主要制造商 Graphic Processing Unit (GPU) 上海大学计算机学院 GPU简介 GPU诞生背景：超高计算能力要求 1.CPU处理能力不断强大，但在进入3D时代后，人们发现庞大的3D图像处理数据计算使得CPU越来越不堪重荷，并且远远超出其计算能力； 2.图形计算需求日益增多，作为计算机的显示芯片也飞速发展。图形，图像计算等计算的功能被脱离出来，单独设计为一块芯片——GPU （也就是显卡）。 GPU的变革：G80的诞生 1.流处理器的出现：图像渲染；强大的运算能力； 2.CPU：串行的计算方式向并行计算发展，比如目前主流的双核、四核CPU； 3.GPU：核心的一个流处理器相当于一个“核”，GPU的“核”数量已经不再停留在单位数，而是几十甚至是上百个。上海大学计算机学院 GPU与CPU的比较 CPU的内部结构：控制单元、逻辑单元和存储单元运算器：算术运算(如加减乘除)和逻辑运算( 如逻辑加、逻辑乘和非运算) 控制器：读取各种指令,并对指令进行分析,作出相应的控制。若干个寄存器：可直接参与运算并存放运算的中间结果。 GPU采用了大量的执行单元，这些执行单元可以轻松的加载并行处理，而不像CPU那样的单线程处理。另外，现代的GPU也可以在每个指令周期执行更多的单一指令。上海大学计算机学院 GPU的强大浮点运算能力 GPU超强的浮点数运算能力同期Intel Core2Due的24GFLOPS（Floating-point Operations per Second）浮点数处理能力和G80 Chip的520GFLOPS相比，G80要快21.6倍，GPU浮点运算性能优势显而易见。虽然说NVIDIA与AMD单精度（FP32）运算能力都突破了1TFlops。目前CUDA支持双精度计算，目前支持的产品有GeForce GTX 295，GeForce GTX285,GTX 280，GeForce GTX 260，Tesla S1070，Tesla C1060，Quadro Plex 2200 D2，Quadro FX 5800，Quadro FX 4800 上海大学计算机学院传统GPU架构传统GPU的核心组成部分是Shader(着色器)：Pixel Shader(像素单元)和Vertex Shader(顶点单元) 。在图形处理中，像素是由RGB（红绿蓝）构成的，加上信息说明(Alpha)，总共是4个通道。而顶点数据一般也是由XYZW四个坐标构成，这样也是4个通道。在3D图形进行渲染时，其实就是改变RGBA四个通道或者XYZW四个坐标的数值。这样的4D矢量运算单元在渲染3D图形时会有很高的效率，但在处理复杂指令时的效率会大打折扣，比如DX10新引入的几何着色、物理加速等，尤其在面对非图形渲染指令时优势全无。上海大学计算机学院 GPU到CUDA 上海大学计算机学院 CUDA概论—简介 CUDA – Compute Unified Device Architecture（统一计算设备架构）特点：专门针对GPU的开发工具。需要Nvidia公司的GeForce80以上系列、Tesla系列和Quadro系列等硬件的支持。性能：程序效率能够得到大大提升。与采用图形API接口指挥GPU完成运算不同，CUDA可以自由地输入代码调用GPU的并行处理架构。优势：可以使用类C语言进行通用计算。? CUDA的GPU编程语言基于标准的C语言，任何有C语言基础的用户都很容易地开发CUDA的应用程序。上海大学计算机学院 CUDA – 异构并行 host+device异构并行C应用程序 Host端串行C代码 Device端SPMD并行化kernel（内核）C代码 CPU串行代码 (host) GPU并行内核 (device) KernelA nBlk, nTid (args); CPU串行代码 (host) GPU并行内核 (device) KernelB nBlk, nTid (args); 并发执行上海大学计算机学院 CUDA Devices and Threads 计算设备（device） CPU or host的协处理器（coprocessor）拥有独自的DRAM (device memory) 可以并行的运行很多Threads 一般来说是GPU，也可以是其他并行处理器一个应用程序的数据并行部分能够用许多设备内核（devi