CUDA_超大规模并行程序设计创新.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Coalesced Global Memory Accesses 在half-warp层次对访问global memory进行协调 访问连续global memory区域: 64 bytes - each thread reads a word: int, float, … 128 bytes - each thread reads a double-word: int2, float2, … 256 bytes – each thread reads a quad-word: int4, float4, … 额外限制: Global memory区域的起始地址必须是该区域数据类型尺寸的整数倍 Warp中第k个线程访问第k个地址 例外: 可以有某些中间线程不参加 Predicated access, divergence within a warp Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses 提纲 从GPGPU到CUDA CUDA并行程序组织 并行执行模型 CUDA存储器 Shared memory Global memory CUDA程序设计工具 程序优化 下载CUDA软件 /object/cuda_get_cn.html CUDA driver 硬件驱动 CUDA toolkit 工具包 CUDA SDK 程序范例及动态链接库 CUDA Visual Profiler 程序剖析工具 软件环境 GPU硬件和CUDA软件安装后: CPU (Host) CUDA Libraries (CUFFT CUBLAS) CUDA Runtime Libraries CUDA Driver Application GPU (Device) CUDA程序的编译(compile) CUDA源文件被nvcc处理 nvcc is a compiler driver nvcc输出: PTX (Parallel Thread eXecution) Virtual ISA for multiple GPU hardware Just-In-Time compilation by CUDA runtime GPU binary Device-specific binary object Standard C code With explicit parallelism C/C++ CUDA Application NVCC PTX Code C/C++ CPU Code Generic CUDA Runtime Specialized Other GPUs G80 GT200 CUDA Binary DEBUG make dbg=1 CPU代码以debug模式编译 可以用debugger (e.g. gdb, visual studio)运行 但不能检查GPU代码的中间结果 make emu=1 在CPU上以emulation方式顺序运行 可以使用printf()打印中间结果 基本顺序执行 但不能再现线程间的竞争(race)现象 浮点运算结果可能有微小的差别 检查资源使用 使用-cubin flag编译开关 检查.cubin文件的”code”部分 architecture {sm_10} abiversion {0} modname {cubin} code { name = BlackScholesGPU lmem = 0 smem = 68 reg = 20 bar = 0 bincode { 0xa0004205 00x40024c09 0… per thread local memory per thread block shared memory per thread registers 提纲 从GPGPU到CUDA CUDA并行程序组织 并行执行模型 CUDA存储器 Shared memory Global memory CUDA程序设计工具 程序优化 针对GPU优化算法 最大化独立并行性 最大化算术计算密度(math/bandwidth) 重复计算往往优于访问存储器 GPU spends its transistors on ALUs, not memory 尽量在GPU上计算以避免与CPU传递数据 即使低并行度运算也往往优于频繁的CPU-GPU数据传递 利用Shared Memory 几百倍快于global memory 线程之间通过shared memory合作 使用一个或少量线程装载和计算thread block内全部线程共享

文档评论(0)

南非的朋友 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档