GPU计算CUDA基本介绍.ppt

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CUDA基本介绍 基于Nvidia GPU的通用计算开发 张舒 电子科技大学 电子工程学院 06级硕士研究生 信号探测与获取技术专业 研究方向:合成孔径雷达成像与雷达目标像识别 信号处理与模式识别的算法与硬件实现研究 GPU的优势 强大的处理能力 GPU接近1Tflops/s 高带宽 140GB/s 低成本 Gflop/$和Gflops/w高于CPU 当前世界超级计算机五百强的入门门槛为12Tflops/s 一个三节点,每节点4GPU的集群,总处理能力就超过12Tflops/s,如果使用GTX280只需10万元左右,使用专用的Tesla也只需20万左右 GPU /CPU计算能力比较 GPU/CPU存储器带宽比较 GPU/CPU架构比较 延迟与吞吐量 CPU: 通过大的缓存保证线程访问内存的低延迟,但内存带宽小,执行单元太少,数据吞吐量小 需要硬件机制保证缓存命中率和数据一致性 GPU: 高显存带宽和很强的处理能力提供了很大的数据吞吐量 缓存不检查数据一致性 直接访问显存延时可达数百乃至上千时钟周期 单核CPU已经走到了尽头 频率提高遇到了瓶颈 从p4时代至今主流处理器频率一直在2GHz-3GHz左右 架构上已无潜力可挖。超线程 多流水线 复杂的分支预测 大缓存等技术已经将性能发挥到了极致,但是通用计算中的指令级并行仍然偏低 上述技术占用了芯片上的绝大多数晶体管和面积,目的却只是让极少数的执行单元能够满负荷工作 GPU能够更好的利用摩尔定律提供的晶体管 图形渲染过程高度并行,因此硬件也是高度并行的 少量的控制单元,大量的执行单元 显存被固化在了PCB上,拥有更好的EMI性能,因此运行频率高于内存 通过更大的位宽实现了高带宽 当前的单核并行计算产品 IBM Cell 应用主要见于PS3 SUN Niarraga NPU NV/ATI GPU 大规模应用 GPU最为常见,受市场牵引发展最快,性价比最高 架构比较 CPU GPU FPGA实现比较 当前的GPU开发环境 Cg:优秀的图形学开发环境,但不适合GPU通用计算开发 ATI stream:硬件上已经有了基础,但只有低层次汇编能够使用所有资源。高层次抽象Brook本质上是基于上一代GPU的,缺乏良好的编程模型 OpenCL:联合制定的标准,抽象层次较低,对硬件直接操作更多,代码需要根据不同硬件优化 CUDA:目前最佳选择 未来的发展趋势 GPU通用计算进一步发展:更高版本的CUDA, OpenCL 新产品涌现:Nvidia和AMD的下一代产品,Intel的LarraBee CPU+GPU产品:减少了CPU-GPU通信成本,但存储器带宽和功耗面积等可能将制约集成度。在较低端的应用中将有用武之地。 CUDA的硬件架构适合通用计算 G8x系 G9x系 GT200系列 标量机架构提高了处理效率,更加适合通用计算 增加了shared memory和同步机制,实现线程间通信 以通用的处理器矩阵为主,辅以专用图形单元 GTX280性能 933 Gflops(MAD)单精度 116 Gflops双精度(MAD ) 512bit位宽ddr3显存,提供了140GB/s的带宽 1G的显存 GT200框图 TPC SM ROP ROP 对DRAM进行访问 TEXTURE机制 对global的atomic操作 微架构比较 执行流水线 工作在通用计算模式下的GT200 SM架构 DUAL-Issue 并发 CUDA架构GPU硬件特点 硬件资源模块化,根据市场定位裁减 高度并行 存在TPC SM 两层 每个SM又有8SP SM内存在高速的shared memory和同步机制 原子操作有利于实现通用计算中的数据顺序一致性 shared memory Texture cache constant cache等高速片内存储器有助于提高数据访问速度,节省带宽 如何选购硬件 目前(2008. 12)只有CUDA能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。 GT200系列不仅性能更强,而且具有很多实用的新特性 Tesla专用流处理器拥有更大的显存和更高的核心频率,通过降低显存频率,屏蔽不需要的图形单元和改善散热获得了更好的稳定性,适合服务器或者集群使用 适合的应用 GPU只有在计算高度数据并行任务时才能发挥作用。在这类任务中,需要处理大量的数据,数据的储存形式类似于规则的网格,而对这写数据的进行的处理则基本相同。这类数据并行问题的经典例子有:图像处理,物理模型模拟(如计算流体力学),工程和金融模拟与分析,搜索,排序。 在很多应用中取得了1-2个数量级的加速 不适合的应用 需要复杂数据结构的计算如树,相关矩阵,链

文档评论(0)

aena45 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档