《NVIDIA Fermi架构_白皮书_中文详细版》.pdf

下载文档 降价啦

82
0
约2.12万字
约 21页
2015-12-30 发布于河南
举报
版权申诉
保障服务

《NVIDIA Fermi架构_白皮书_中文详细版》.pdf

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Fermi白皮书中文翻译V1.1版本 Fermi白皮书中文翻译V1.1版本 FFeerrmmii白白皮皮书书中中文文翻翻译译VV11..11版版本本 zhongliangv 译 zhongliangv 译 zzhhoonngglliiaannggvv 译译 2011年9月28日于北京 2011年9月28日于北京年99月月2288日日于于北北京京目录目录目目录录 GPU计算发展简史3 G80架构3 NVIDIA下一代CUDA图形和计算架构：Fermi4 CUDA回顾6 Fermi架构概述7 第三代的流多处理器SM8 512个高性能CUDA核心8 16个存取单元(Load/StoreUnites)9 4个特殊函数单元(SFU)9 双精度的设计9 双warp调度机制10 64KB可配置的共享存储器和L1 高速缓存10 三种架构的对比表格11 第二代的并行线程计算(PTX)指令集(ISA)架构12 统一的地址空间，完整支持C++12 对OpenCL和DirectCompute进行了优化13 IEEE32-bit浮点数精度14 通过判断(predication)改进了条件分支性能15 存储器子系统的改进15 NVIDIA 并行数据的缓存：L1缓存和L2缓存15 第一代支持ECC的GPU17 快速的原子内存操作17 千兆线程调度引擎18 10倍的应用程序上下文切换18 并发的kernel执行18 引入了NVIDIANexus19 总结20 (由于本人水平有限，所以有些地方没有理解到位，还望多多批评与指教！QQ： (由于本人水平有限，所以有些地方没有理解到位，还望多多批评与指教！QQ： ((由由于于本本人人水水平平有有限限，，所所以以有有些些地地方方没没有有理理解解到到位位，，还还望望多多多多批批评评与与指指教教！！QQQQ：： 634143729) 634143729) 663344114433772299)) 2 GPU GPU GGPPUU计算发展简史图形处理单元GPU最先是由NVIDIA公司在1999年提出的，现在是最有前景的并行处理器。由于人们对实时图像的强大要求，GPU演变成了一个具有强大浮点数编程和计算能力的处理器。在计算吞吐量和内存带宽上，现代的GPU 远远超过CPU，这使得GPU成为能够加速数据并行的理想的处理器。开发GPU的非图像应用早在2003年就开始了。通过使用绘制语言（shading language DirectX OpenGL Cg GPU ）如，和，许多数据并行算法开始在上去得成 SQL MRI 效。例如蛋白质的折叠，股票定价，数据库查询，（核磁共振）图像重建在GPU上都实现了明显的加速。这些早期的编程是使用图像API实现通用目的的计算的，即我们通常所说的GPGPU编程。 GPGPU 1. 模型证明了其具有很高的加速比，但是它仍然有几个缺点：要求