GPU、CUDA 计算高级优化技术精简手册.pdf

下载文档 降价啦

10
0
约7.92万字
约 53页
2019-03-04 发布于湖北
举报
版权申诉
保障服务

GPU、CUDA 计算高级优化技术精简手册.pdf

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

GPU编程高级优化技术杂谈前言数年前，我初入编程领域,一开始根据兴趣GPGPU这个方 , 那是CUDA和OpenCL还未出现，那是底层汇编找色器的时代，而我当时正是通过OpenGL使用GPU汇编指令，Cg 以及GLSL编写着色器来进行GPU通用计算,直至现在一直从事基于GPU和CPU高性能异构计算的工作。数年前以网名cyrosly经常混迹于CSDN CUDA论坛和CUDA计算QQ群，讨论各种相关技术或是对一些网友的问题答疑解惑。现在想来那段时期，有过狂妄，有过激情，更结识了友情。是我的好友郑经维正是在学习CUDA技术的过程中结识的，当时虽只一面之缘，却成为了这个圈子中最要好的朋友,也正是因为他的劝说才有了我写此书的决定，或许一本对上感觉的书对于读者的意义远大于在论坛上回答成千上百个问题。本来经纬是想让我尽可能出版的，但是由于工作的原因，没有多余的精力继续写下去，因此打算把还远未未完成的残稿贡献出来。本书的目的跳过众多相关书籍频繁重复的内容通过几个有趣的实例直接介绍GPU编程中的高级优化技术，读者可从本书中一窥诸如cublas,cufft那些高性能库的大概面貌和其中所使用的主要优化技术。当然,即使是初学者,也可以通过本书达到技术上跳跃式的升级，而作者也信奉一个观念：一看就懂的书不是好书，因为这代表了读者最终可以从中获取的信息量太少抑或是自己潜意识里早已知晓但并未显现，并可能引发部分读者的思考：是否物有所值。本书内容绝不雷同，力求精简，节奏很快，希望读者可以通过分析本书中的代码找到开发高质量GPU程序的感觉。作者本人没有写书的经验，，甚至自认不太擅长摆弄文字，所以本书未必是一本好书，但绝对有其独特之处，如果读者可从中或多或少的学到些其它相关书籍中没有见过的内容，那么也不枉此书了。写作过程历时约一个半月，由于写作仓促，因此不免有疏漏之处,若有发现,可联系作者更正。作者的联系方式： QQ : 295553381 微信 : 目录第一章设备微架构 1.0 CUDA设备 1.0.0 核心微架构 1.0.1 寄存器文件结构 1.0.2 指令流水线 1.1 GCN设备 1.1.0 核心微架构 1.1.1 寄存器文件结构 1.1.2 指令流水线 1.2 GPU设备上的条件分支第二章GPU矩阵乘法的高效实现 2.0 前言 2.1 指令级并行和数据预取 2.2 双缓冲区 2.3 宽数据内存事务 2.4 二级数据预取 2.5 细节调优第三章基于GPU的稀疏矩阵直接求解器 3.0 简介 3.1 基于quotient graph的符号分析 3.1.1 顶点重排序 3.1.2 构建消去树 3.1.3 寻找超结点 3.1.4 符号分解 3.2 多波前法 3.3 超节点方法 3.4 多波前+超节点方法的并行分解算法小结参考资料第四章高性能卷积神经网络的实现 4.0 简介 4.1 卷积层的高效计算 4.1.1 基于矩阵乘法的卷积 4.1.2 改进-无需额外存储空间的矩阵乘法卷积 4.1.3 高效的FFT实现 4.1.4 基于FFT的快速卷积 4.2 采样层的高效计算 4.2.1 下采样 4.2.2 上采样 4.3 梯度更新的高效实现 4.3.1 偏置的更新 4.3.2 激活值的更新第五章多设备编程建议第六章GPU编程优化技术总结 6.1.0