GPU入门技-术介绍.ppt

下载文档 降价啦

11
0
约7.18千字
约 34页
2017-05-08 发布于河南
举报
版权申诉
保障服务

GPU入门技-术介绍.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

GPU入门技-术介绍

GPU GPU简介 GPU研究现状 GPU内部架构 CUDA编程模型 CUDA存储器模型 CUDA程序实例 CUDA程序优化 GPU简介单核处理器芯片已经到了尽头 Power Wall 功耗大 Memory Wall 存储器延迟很难降低，缓存占据70%芯片面积 GPU简介多核和众核时代多个适当复杂度、低功耗核心并行工作时钟频率基本不变未来计算机硬件不会更快，但会更“宽” 必须重新设计算法 “Multicore: This is the one which will have the biggest impact on us. We have never had a problem to solve like this. A breakthrough is needed in how applications are done on multicore devices.” -Bill Gates, Microsoft GPU简介 GPU，Graphics Processing Unit的简写，是现代显卡中非常重要的一个部分，其地位与 CPU在主板上的地位一致，主要负责的任务是加速图形处理速度。 GPU是一个高度并行化的多线程、多核心处理器。 GPU简介 GPU/CPU计算能力比较 GPU简介 GPU/CPU存储器带宽比较 GPU简介市场迫切需要实时、高清晰度的 3D 图形，可编程的 GPU 已发展成为一种高度并行化、多线程、多核心的处理器，具有杰出的计算能力和极高的存储器带宽。 GPU极大提升了计算机图形处理的速度、增强了图形的质量，并促进了与计算机图形相关其他应用领域的快速发展。与中央处理器(Central Processing Unit，CPU)的串行设计模式不同，GPU为图形处理设计，具有天然的并行特性。 GPU简介 GPU研究现状 NVIDIA在1999年推出了第一款GPU产品－GeForce 256。主要任务是进行图形渲染任务，缓解CPU压力。从GPU诞生那天开始，其发展脚步就没有停止下来，由于其独特的体系架构和超强的浮点运算能力，人们希望将某些通用计算问题移植到GPU上来完成以提升效率，出现了所谓的GPGPU（General Purpose Graphic Process Unit），但是由于其开发难度较大，没有被广泛接受。 2006年NVIDIA推出了第一款基于Tesla架构的GPU（G80），GPU已经不仅仅局限于图形渲染，开始正式向通用计算领域迈进。 GPU研究现状 2007年6月，NVIDIA推出了CUDA（Computer Unified Device Architecture计算统一设备结构）。CUDA是一种将GPU作为数据并行计算设备的软硬件体系。在CUDA 的架构中，不再像过去GPGPU架构那样将通用计算映射到图形API中，对于开发者来说，CUDA 的开发门槛大大降低了。CUDA 的编程语言基于标准C ，因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性，CUDA在推出后迅速发展，被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。 GPU内部架构 CPU: 强控制弱计算，更多资源用于缓存 CPU: 强计算弱控制，更多资源用于数据计算 GPU内部架构 GPU体系架构在不断的发展，以GT200体系架构为代表对GPU的并行层次进行分析。Tesla GT200由两部分组成，分别是可伸缩流处理器阵列(Scalable Streaming Processor Array，SPA)和存储器系统，它们由一个片上互联网络连接。如下图所示，可伸缩流处理器阵列由若干个线程处理器群(Thread Processing Cluster，TPC)构成，每个TPC包含2～3个流多处理器(Streaming Multiprocessor，SM)，每个流多处理器中包含8个流处理器(StreamingProcessor，SP)。流处理器有独立的寄存器和指令指针，但缺少取指和调度单元，而流多处理器才拥有完整前端，包括取值、译码、发射等。从结构上看，每个流多处理器相当于一个8路单指令流多数据流(Single Instruction Multiple Data，SIMD)处理器，不同的是，GPU实现了自动向量机化，NVIDIA将之命名为单指令流多线程(Single Instruction Multiple Thread，SIMT) GPU内部架构 GPU内部架构在GPU中，流多处理器才能被称为真正的完整核心，整个可伸缩流处理器阵列可以被看成是由多个流多处理器组成的多单指令流多线程(Multiple SIMT，

您可能关注的文档

文档评论（0）

xxj1658888 + 关注: 实名认证

内容提供者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

更多 >

GPU入门技-术介绍.ppt