CUDA_超大规模并行程序设计资料.pptVIP

  • 7
  • 0
  • 约2.1万字
  • 约 93页
  • 2017-08-21 发布于湖北
  • 举报
Coalesced Global Memory Accesses 在half-warp层次对访问global memory进行协调 访问连续global memory区域: 64 bytes - each thread reads a word: int, float, … 128 bytes - each thread reads a double-word: int2, float2, … 256 bytes – each thread reads a quad-word: int4, float4, … 额外限制: Global memory区域的起始地址必须是该区域数据类型尺寸的整数倍 Warp中第k个线程访问第k个地址 例外: 可以有某些中间线程不参加 Predicated access, divergence within a warp Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses Non-Coalesced Global Memory Accesses 提纲 从GPGPU到CUDA CUDA并行程序组织 并行执行模型 CUDA存储器 Shared memory Global memory CUDA程序设计工具 程序优化 下载CUDA软件 /object/cuda_get_cn

文档评论(0)

1亿VIP精品文档

相关文档