网站大量收购闲置独家精品文档,联系QQ:2885784924

《NVIDIA Fermi架构_白皮书_中文详细版》.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《NVIDIA Fermi架构_白皮书_中文详细版》.pdf

Fermi白皮书中文翻译V1.1版本 Fermi白皮书中文翻译V1.1版本 FFeerrmmii白白皮皮书书中中文文翻翻译译VV11..11版版本本 zhongliangv 译 zhongliangv 译 zzhhoonngglliiaannggvv 译译 2011年9月28日 于北京 2011年9月28日 于北京 年99月月2288日日 于于北北京京 目 录 目 录 目目 录录 GPU计算发展简史3 G80架构3 NVIDIA下一代CUDA图形和计算架构:Fermi4 CUDA回顾6 Fermi架构概述7 第三代的流多处理器SM8 512个高性能CUDA核心8 16个存取单元(Load/StoreUnites)9 4个特殊函数单元(SFU)9 双精度的设计9 双warp调度机制10 64KB可配置的共享存储器和L1 高速缓存10 三种架构的对比表格11 第二代的并行线程计算(PTX)指令集(ISA)架构12 统一的地址空间,完整支持C++12 对OpenCL和DirectCompute进行了优化13 IEEE32-bit浮点数精度14 通过判断(predication)改进了条件分支性能15 存储器子系统的改进15 NVIDIA 并行数据的缓存:L1缓存和L2缓存15 第一代支持ECC的GPU17 快速的原子内存操作17 千兆线程调度引擎18 10倍的应用程序上下文切换18 并发的kernel执行18 引入了NVIDIANexus19 总结20 (由于本人水平有限,所以有些地方没有理解到位,还望多多批评与指教!QQ: (由于本人水平有限,所以有些地方没有理解到位,还望多多批评与指教!QQ: ((由由于于本本人人水水平平有有限限,,所所以以有有些些地地方方没没有有理理解解到到位位,,还还望望多多多多批批评评与与指指教教!!QQQQ:: 634143729) 634143729) 663344114433772299)) 2 GPU GPU GGPPUU计算发展简史 图形处理单元GPU最先是由NVIDIA公司在1999年提出的,现在是最有前 景的并行处理器。由于人们对实时图像的强大要求,GPU演变成了一个具有强 大浮点数编程和计算能力的处理器。在计算吞吐量和内存带宽上,现代的GPU 远远超过CPU,这使得GPU成为能够加速数据并行的理想的处理器。 开发GPU的非图像应用早在2003年就开始了。通过使用绘制语言(shading language DirectX OpenGL Cg GPU )如 , 和 ,许多数据并行算法开始在 上去得成 SQL MRI 效。例如蛋白质的折叠,股票定价, 数据库查询, (核磁共振)图像重 建在GPU上都实现了明显的加速。这些早期的编程是使用图像API实现通用目 的的计算的,即我们通常所说的GPGPU编程。 GPGPU 1. 模型证明了其具有很高的加速比,但是它仍然有几个缺点: 要求

文档评论(0)

ycwf + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档