- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CUDA简介
上海大学计算机学院
沈文枫 孙连强
2014.6.19
上海大学计算机学院
主要框架
上海大学计算机学院
GPU简介
用于个人计算机、工作站和游戏机的专用图像显示设备
显示卡或主板集成
nVidia和ATI (now AMD)是主要制造商
Graphic Processing Unit (GPU)
上海大学计算机学院
GPU简介
GPU诞生背景:超高计算能力要求
1.CPU处理能力不断强大,但在进入3D时代后,人们发现庞大的3D图像处理数据计算使得CPU越来越不堪重荷,并且远远超出其计算能力;
2.图形计算需求日益增多,作为计算机的显示芯片也飞速发展。图形,图像计算等计算的功能被脱离出来,单独设计为一块芯片——GPU (也就是显卡)。
GPU的变革:G80的诞生
1.流处理器的出现:图像渲染;强大的运算能力;
2.CPU:串行的计算方式向并行计算发展,比如目前主流的双核、四核CPU;
3.GPU:核心的一个流处理器相当于一个“核”,GPU的“核”数量已经不再停留在单位数,而是几十甚至是上百个。
上海大学计算机学院
GPU与CPU的比较
CPU的内部结构:控制单元、逻辑单元和存储单元
运算器:算术运算(如加减乘除)和逻辑运算( 如逻辑加、逻辑乘和非运算)
控制器:读取各种指令,并对指令进行分析,作出相应的控制。
若干个寄存器:可直接参与运算并存放运算的中间结果。
GPU采用了大量的执行单元,这些执行单元可以轻松的加载并行处理,而不像CPU那样的单线程处理。另外,现代的GPU也可以在每个指令周期执行更多的单一指令。
上海大学计算机学院
GPU的强大浮点运算能力
GPU超强的浮点数运算能力
同期Intel Core2Due的24GFLOPS(Floating-point Operations per Second)浮点数处理能力 和G80 Chip的520GFLOPS相比,G80要快21.6倍,GPU浮点运算性能优势显而易见。
虽然说NVIDIA与AMD单精度(FP32)运算能力都突破了1TFlops。
目前CUDA支持双精度计算,目前支持的产品有GeForce GTX 295,GeForce GTX285,GTX 280,GeForce GTX 260,Tesla S1070,Tesla C1060,Quadro Plex 2200 D2,Quadro FX 5800,Quadro FX 4800
上海大学计算机学院
传统GPU架构
传统GPU的核心组成部分是Shader(着色器):Pixel Shader(像素单元)和Vertex Shader(顶点单元) 。
在图形处理中,像素是由RGB(红绿蓝)构成的,加上信息说明(Alpha),总共是4个通道。而顶点数据一般也是由XYZW四个坐标构成,这样也是4个通道。在3D图形进行渲染时,其实就是改变RGBA四个通道或者XYZW四个坐标的数值。
这样的4D矢量运算单元在渲染3D图形时会有很高的效率,但在处理复杂指令时的效率会大打折扣,比如DX10新引入的几何着色、物理加速等,尤其在面对非图形渲染指令时优势全无。
上海大学计算机学院
GPU到CUDA
上海大学计算机学院
CUDA概论—简介
CUDA – Compute Unified Device Architecture(统一计算设备架构)
特点:专门针对GPU的开发工具。
需要Nvidia公司的GeForce80以上系列、Tesla系列和Quadro系列等硬件的支持。
性能:程序效率能够得到大大提升。
与采用图形API接口指挥GPU完成运算不同,CUDA可以自由地输入代码调用GPU的并行处理架构。
优势:可以使用类C语言进行通用计算。?
CUDA的GPU编程语言基于标准的C语言,任何有C语言基础的用户都很容易地开发CUDA的应用程序。
上海大学计算机学院
CUDA – 异构并行
host+device异构并行C应用程序
Host端串行C代码
Device端SPMD并行化kernel(内核)C代码
CPU串行代码 (host)
GPU并行内核 (device)
KernelA nBlk, nTid (args);
CPU串行代码 (host)
GPU并行内核 (device)
KernelB nBlk, nTid (args);
并发执行
上海大学计算机学院
CUDA Devices and Threads
计算设备(device)
CPU or host的协处理器(coprocessor)
拥有独自的DRAM (device memory)
可以并行的运行很多Threads
一般来说是GPU,也可以是其他并行处理器
一个应用程序的数据并行部分能够用许多设备内核(devi
您可能关注的文档
最近下载
- YY_T 1939-2024 医疗器械细菌内毒素试验方法 重组C因子法.docx VIP
- (正式版)B 5908-2005 石油储罐阻火器.docx VIP
- 妇幼保健服务转介流程及实施.docx VIP
- [学前教育学试卷.doc VIP
- 孕产妇艾滋病、梅毒和乙肝五项检测登记本.doc VIP
- 青少年网瘾成因分析及对策研究的任务书.docx VIP
- 53425计算机科学概论原书dale.pptx VIP
- 专题05 修辞与描写和说明方法-2022-2023学年四年级语文上册寒假专项提升(部编).docx VIP
- 医疗考试结构化面试试题(含答案).docx VIP
- 2025年社会学概论考试题目及答案.pdf VIP
原创力文档


文档评论(0)