GPU计算CUDA基本介绍.ppt

下载文档 降价啦

1
0
约9.23千字
约 73页
2019-07-13 发布于湖北
举报
版权申诉
保障服务

GPU计算CUDA基本介绍.ppt

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CUDA基本介绍基于Nvidia GPU的通用计算开发张舒电子科技大学电子工程学院 06级硕士研究生信号探测与获取技术专业研究方向：合成孔径雷达成像与雷达目标像识别信号处理与模式识别的算法与硬件实现研究 GPU的优势强大的处理能力 GPU接近1Tflops/s 高带宽 140GB/s 低成本 Gflop/$和Gflops/w高于CPU 当前世界超级计算机五百强的入门门槛为12Tflops/s 一个三节点，每节点4GPU的集群，总处理能力就超过12Tflops/s，如果使用GTX280只需10万元左右，使用专用的Tesla也只需20万左右 GPU /CPU计算能力比较 GPU/CPU存储器带宽比较 GPU/CPU架构比较延迟与吞吐量 CPU: 通过大的缓存保证线程访问内存的低延迟,但内存带宽小，执行单元太少，数据吞吐量小需要硬件机制保证缓存命中率和数据一致性 GPU: 高显存带宽和很强的处理能力提供了很大的数据吞吐量缓存不检查数据一致性直接访问显存延时可达数百乃至上千时钟周期单核CPU已经走到了尽头频率提高遇到了瓶颈从p4时代至今主流处理器频率一直在2GHz-3GHz左右架构上已无潜力可挖。超线程多流水线复杂的分支预测大缓存等技术已经将性能发挥到了极致，但是通用计算中的指令级并行仍然偏低上述技术占用了芯片上的绝大多数晶体管和面积，目的却只是让极少数的执行单元能够满负荷工作 GPU能够更好的利用摩尔定律提供的晶体管图形渲染过程高度并行，因此硬件也是高度并行的少量的控制单元，大量的执行单元显存被固化在了PCB上，拥有更好的EMI性能，因此运行频率高于内存通过更大的位宽实现了高带宽当前的单核并行计算产品 IBM Cell 应用主要见于PS3 SUN Niarraga NPU NV/ATI GPU 大规模应用 GPU最为常见，受市场牵引发展最快，性价比最高架构比较 CPU GPU FPGA实现比较当前的GPU开发环境 Cg：优秀的图形学开发环境，但不适合GPU通用计算开发 ATI stream：硬件上已经有了基础，但只有低层次汇编能够使用所有资源。高层次抽象Brook本质上是基于上一代GPU的，缺乏良好的编程模型 OpenCL：联合制定的标准，抽象层次较低，对硬件直接操作更多，代码需要根据不同硬件优化 CUDA：目前最佳选择未来的发展趋势 GPU通用计算进一步发展：更高版本的CUDA, OpenCL 新产品涌现：Nvidia和AMD的下一代产品，Intel的LarraBee CPU+GPU产品：减少了CPU-GPU通信成本，但存储器带宽和功耗面积等可能将制约集成度。在较低端的应用中将有用武之地。 CUDA的硬件架构适合通用计算 G8x系　G9x系　GT200系列标量机架构提高了处理效率，更加适合通用计算增加了shared memory和同步机制，实现线程间通信以通用的处理器矩阵为主，辅以专用图形单元 GTX280性能 933 Gflops（MAD）单精度 116 Gflops双精度(MAD ) 512bit位宽ddr3显存，提供了140GB/s的带宽 1G的显存 GT200框图 TPC SM ROP ROP 对DRAM进行访问 TEXTURE机制对global的atomic操作微架构比较执行流水线工作在通用计算模式下的GT200 SM架构 DUAL-Issue 并发 CUDA架构GPU硬件特点硬件资源模块化，根据市场定位裁减高度并行存在TPC SM 两层每个SM又有8SP SM内存在高速的shared memory和同步机制原子操作有利于实现通用计算中的数据顺序一致性 shared memory Texture cache constant cache等高速片内存储器有助于提高数据访问速度，节省带宽如何选购硬件目前（2008. 12）只有CUDA能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。 GT200系列不仅性能更强，而且具有很多实用的新特性 Tesla专用流处理器拥有更大的显存和更高的核心频率，通过降低显存频率，屏蔽不需要的图形单元和改善散热获得了更好的稳定性，适合服务器或者集群使用适合的应用 GPU只有在计算高度数据并行任务时才能发挥作用。在这类任务中，需要处理大量的数据，数据的储存形式类似于规则的网格，而对这写数据的进行的处理则基本相同。这类数据并行问题的经典例子有：图像处理，物理模型模拟（如计算流体力学），工程和金融模拟与分析，搜索，排序。在很多应用中取得了1-2个数量级的加速不适合的应用需要复杂数据结构的计算如树，相关矩阵，链