CUDA_超大规模并行程序设计创新.pptVIP

下载本文档

3
0
约2.1万字
约 93页
2017-10-26 发布于湖北
举报
版权申诉

CUDA_超大规模并行程序设计创新.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Coalesced Global Memory Accesses 在half-warp层次对访问global memory进行协调访问连续global memory区域: 64 bytes - each thread reads a word: int, float, … 128 bytes - each thread reads a double-word: int2, float2, … 256 bytes – each thread reads a quad-word: int4, float4, … 额外限制: Global memory区域的起始地址必须是该区域数据类型尺寸的整数倍 Warp中第k个线程访问第k个地址例外: 可以有某些中间线程不参加 Predicated access, divergence within a warp Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses 提纲从GPGPU到CUDA CUDA并行程序组织并行执行模型 CUDA存储器 Shared memory Global memory CUDA程序设计工具程序优化下载CUDA软件 /object/cuda_get_cn.html CUDA driver 硬件驱动 CUDA toolkit 工具包 CUDA SDK 程序范例及动态链接库 CUDA Visual Profiler 程序剖析工具软件环境 GPU硬件和CUDA软件安装后: CPU (Host) CUDA Libraries (CUFFT CUBLAS) CUDA Runtime Libraries CUDA Driver Application GPU (Device) CUDA程序的编译(compile) CUDA源文件被nvcc处理 nvcc is a compiler driver nvcc输出： PTX (Parallel Thread eXecution) Virtual ISA for multiple GPU hardware Just-In-Time compilation by CUDA runtime GPU binary Device-specific binary object Standard C code With explicit parallelism C/C++ CUDA Application NVCC PTX Code C/C++ CPU Code Generic CUDA Runtime Specialized Other GPUs G80 GT200 CUDA Binary DEBUG make dbg=1 CPU代码以debug模式编译可以用debugger (e.g. gdb, visual studio)运行但不能检查GPU代码的中间结果 make emu=1 在CPU上以emulation方式顺序运行可以使用printf()打印中间结果基本顺序执行但不能再现线程间的竞争(race)现象浮点运算结果可能有微小的差别检查资源使用使用-cubin flag编译开关检查.cubin文件的”code”部分 architecture {sm_10} abiversion {0} modname {cubin} code { name = BlackScholesGPU lmem = 0 smem = 68 reg = 20 bar = 0 bincode { 0xa0004205 00x40024c09 0… per thread local memory per thread block shared memory per thread registers 提纲从GPGPU到CUDA CUDA并行程序组织并行执行模型 CUDA存储器 Shared memory Global memory CUDA程序设计工具程序优化针对GPU优化算法最大化独立并行性最大化算术计算密度(math/bandwidth) 重复计算往往优于访问存储器 GPU spends its transistors on ALUs, not memory 尽量在GPU上计算以避免与CPU传递数据即使低并行度运算也往往优于频繁的CPU-GPU数据传递利用Shared Memory 几百倍快于global memory 线程之间通过shared memory合作使用一个或少量线程装载和计算thread block内全部线程共享