1_CUDA_简介探索.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CUDA简介 上海大学计算机学院 沈文枫 孙连强 2014.6.19 上海大学计算机学院 主要框架 上海大学计算机学院 GPU简介 用于个人计算机、工作站和游戏机的专用图像显示设备 显示卡或主板集成 nVidia和ATI (now AMD)是主要制造商 Graphic Processing Unit (GPU) 上海大学计算机学院 GPU简介 GPU诞生背景:超高计算能力要求 1.CPU处理能力不断强大,但在进入3D时代后,人们发现庞大的3D图像处理数据计算使得CPU越来越不堪重荷,并且远远超出其计算能力; 2.图形计算需求日益增多,作为计算机的显示芯片也飞速发展。图形,图像计算等计算的功能被脱离出来,单独设计为一块芯片——GPU (也就是显卡)。 GPU的变革:G80的诞生 1.流处理器的出现:图像渲染;强大的运算能力; 2.CPU:串行的计算方式向并行计算发展,比如目前主流的双核、四核CPU; 3.GPU:核心的一个流处理器相当于一个“核”,GPU的“核”数量已经不再停留在单位数,而是几十甚至是上百个。 上海大学计算机学院 GPU与CPU的比较 CPU的内部结构:控制单元、逻辑单元和存储单元 运算器:算术运算(如加减乘除)和逻辑运算( 如逻辑加、逻辑乘和非运算) 控制器:读取各种指令,并对指令进行分析,作出相应的控制。 若干个寄存器:可直接参与运算并存放运算的中间结果。 GPU采用了大量的执行单元,这些执行单元可以轻松的加载并行处理,而不像CPU那样的单线程处理。另外,现代的GPU也可以在每个指令周期执行更多的单一指令。 上海大学计算机学院 GPU的强大浮点运算能力 GPU超强的浮点数运算能力 同期Intel Core2Due的24GFLOPS(Floating-point Operations per Second)浮点数处理能力 和G80 Chip的520GFLOPS相比,G80要快21.6倍,GPU浮点运算性能优势显而易见。 虽然说NVIDIA与AMD单精度(FP32)运算能力都突破了1TFlops。 目前CUDA支持双精度计算,目前支持的产品有GeForce GTX 295,GeForce GTX285,GTX 280,GeForce GTX 260,Tesla S1070,Tesla C1060,Quadro Plex 2200 D2,Quadro FX 5800,Quadro FX 4800 上海大学计算机学院 传统GPU架构 传统GPU的核心组成部分是Shader(着色器):Pixel Shader(像素单元)和Vertex Shader(顶点单元) 。 在图形处理中,像素是由RGB(红绿蓝)构成的,加上信息说明(Alpha),总共是4个通道。而顶点数据一般也是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。 这样的4D矢量运算单元在渲染3D图形时会有很高的效率,但在处理复杂指令时的效率会大打折扣,比如DX10新引入的几何着色、物理加速等,尤其在面对非图形渲染指令时优势全无。 上海大学计算机学院 GPU到CUDA 上海大学计算机学院 CUDA概论—简介 CUDA – Compute Unified Device Architecture(统一计算设备架构) 特点:专门针对GPU的开发工具。 需要Nvidia公司的GeForce80以上系列、Tesla系列和Quadro系列等硬件的支持。 性能:程序效率能够得到大大提升。 与采用图形API接口指挥GPU完成运算不同,CUDA可以自由地输入代码调用GPU的并行处理架构。 优势:可以使用类C语言进行通用计算。? CUDA的GPU编程语言基于标准的C语言,任何有C语言基础的用户都很容易地开发CUDA的应用程序。 上海大学计算机学院 CUDA – 异构并行 host+device异构并行C应用程序 Host端串行C代码 Device端SPMD并行化kernel(内核)C代码 CPU串行代码 (host) GPU并行内核 (device) KernelA nBlk, nTid (args); CPU串行代码 (host) GPU并行内核 (device) KernelB nBlk, nTid (args); 并发执行 上海大学计算机学院 CUDA Devices and Threads 计算设备(device) CPU or host的协处理器(coprocessor) 拥有独自的DRAM (device memory) 可以并行的运行很多Threads 一般来说是GPU,也可以是其他并行处理器 一个应用程序的数据并行部分能够用许多设备内核(devi

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档