CUDAFortran高效编程实践.PDF

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
CUDAFortran高效编程实践

CUDA Fortran 高效编程实践 科学家和工程师特供 小小河 译 CUDA Fortran for Scientists and Engineers Best Practices for Efficient CUDA Fortran Programming Gregory Ruetsch and Massimiliano Fatica CUDA Fortran 高效编程实践 法律条款 1. 对本文档的任何使用都被视为完全理解并接受本文档所列举的所有法律条款。 2. 此处的作者特指本文的译者。本文档的所有权利归作者所有,作者保留所有权利。 3. 未经作者书面同意,禁止商业使用是指在商业活动中或有商业目的活动中使用。商业使用形式包括但不限于存储、出版、 复制、传播、展示、引用、编辑。 4. 本文档允许以学术研究、技术交流为目的使用。复制、传播过程中不得对本文档作任何增减编辑,引用时需注明出处。 5. 实施任何侵权形为的法人或自然人都必须向作者支付赔偿金,赔偿金计算方法为: 赔偿金 = 涉案人次×涉案时长(天)×涉案文档页数×受众人次×100 元人民币 , 涉案人次、涉案时长、涉案文档页数、受众人次小于 1 时,按 1 计算。 6. 对举报侵权行为、提供有价值证据的自然人或法人 ,作者承诺奖励案件实际赔偿金的 50%. 7. 涉及本文档的法律纠纷由作者所在地法院裁决。 8. 本文档所列举法律条款的最终解释权归作者所有。 技术交流QQ 群:284876008 2 hpcfan@ CUDA Fortran 高效编程实践 译者序 4 第 1 章 引述 5 1.1 GPU 计算简史 5 1.2 并行计算 6 1.3 基础概念 6 1.4 查清 CUDA 硬件的特性和限制 13 1.5 错误处理 20 1.6 编译 CUDA FORTRAN 代码 20 第 2 章性能测量和评价指标27 2.1 测量内核执行时间 27 2.2 指令约束、带宽约束和延时约束的内核 30 2.3 内存带宽 32 第 3 章优化37 3.1 主机与设备间的传输 37 3.2 设备内存 51 3.3 芯片上的内存 72 3.4 内存优化例子:矩阵转置 79 3.5 执行配置 86 3.6 指令优化 90 3.7 内核循环导语(DIRECTIVE) 92 第 4 章多 GPU 编程97 4.1 CUDA 的多 GPU 特性 97 4.2 用 MPI 多 GPU 编程 119 附录 B 系统管理和环境管理131 B.1 环境变量 131 B.1.1 一般环境变量 131 B.2 NVIDIA-SMI 系统管理接口 132 附录 C 从 CUDA FORTRAN 中调用CUDA C 137 附录 D 源代码 139 D.1 纹理内存 139 D.2 矩阵转置 139 D.3 线程级并行和指令级并行 148 技术交流QQ 群:284876008

知传链电子书

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档