网站大量收购独家精品文档,联系QQ:2885784924

CUDA基本介绍的.pdf

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CUDA基本介绍的

CUDA基本介绍 基于Nvidia GPU的通 用计算开发 张舒  电子科技大学电子工程学院06级硕士研究生  信号探测与获取技术专业  研究方向:合成孔径雷达成像与雷达目标像识别  信号处理与模式识别的算法与硬件实现研究 GPU的优势  强大的处理能力GPU接近1Tflops/s  高带宽 140GB/s  低成本 Gflop/$和Gflops/w高于CPU  当前世界超级计算机五百强的入门门槛为 12Tflops/s  一个三节点,每节点4GPU的集群,总处理能力 就超过12Tflops/s ,如果使用GTX280只需10万 元左右,使用专用的Tesla也只需20万左右 GPU /CPU计算能力比较 GPU/CPU存储器带宽比较 GPU/CPU架构比较 延迟与吞吐量  CPU: 通过大的缓存保证线程访问内存的低延迟, 但内存带宽小,执行单元太少,数据吞吐量小 需要硬件机制保证缓存命中率和数据一致性  GPU: 高显存带宽和很强的处理能力提供了很大 的数据吞吐量 缓存不检查数据一致性 直接访问显存延时可达数百乃至上千时钟周期 单核CPU已经走到了尽头  频率提高遇到了瓶颈从p4时代至今主流处理器 频率一直在2GHz-3GHz左右  架构上已无潜力可挖。超线程多流水线复杂的 分支预测大缓存等技术已经将性能发挥到了极 致,但是通用计算中的指令级并行仍然偏低  上述技术占用了芯片上的绝大多数晶体管和面积, 目的却只是让极少数的执行单元能够满负荷工作 GPU能够更好的利用摩尔定律提供的 晶体管  图形渲染过程高度并行,因此硬件也是高度并行 的  少量的控制单元,大量的执行单元  显存被固化在了PCB上,拥有更好的EMI性能, 因此运行频率高于内存通过更大的位宽实现了 高带宽 当前的单核并行计算产品  IBM Cell 应用主要见于PS3  SUN Niarraga NPU  NV/ATI GPU 大规模应用  GPU最为常见,受市场牵引发展最快,性价比 最高 架构比较 CPU GPU FPGA实现比较 硬件 CPU GPU FPGA AES-128解 1.02 0.119 1.78 密实测速度 (互联网资料中单片FPGA最大 (Core2 E6700中单核) (FX9800GTX+) (GByte/s) 值) 开发难度 小 较小 大 增加功能 容易 容易 难 硬件升级 无需修改代码 无需修改代码 需要修改代码 通过PCI-E,实际速度一 需要为FPGA编写额外的驱动 与主控端通信 不需要 般为3G左右,通过API实 程序,实现通信协议需要额 现,较简单 外的硬件资源 性能/成本 高 低 高

文档评论(0)

ayangjiayu3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档