中科曙光HPC培训教程汇总:D31-并行编程—CUDA程序设计简介.pptVIP

  • 79
  • 0
  • 约7.04千字
  • 约 35页
  • 2021-02-26 发布于安徽
  • 举报

中科曙光HPC培训教程汇总:D31-并行编程—CUDA程序设计简介.ppt

CUDA编程举例vector add 在GPU下运行的kernel函数的文件名后缀为.cu 核函数(__global__) 线程索引号的计算 线程私有变量的申请 shared memory的申请等等 设备端函数(__device__),只可以在device端调用,host端不可调用 在CPU运行的程序文件名可以为.c .cpp .cu 文件的读写 内存的申请 显存(global memory)的申请 CPU和GPU之间数据的交互 GPU端线程的申请 CPU端函数以及kernel函数的调用 内存的释放 显存的释放 CUDA编程举例vector add Step1: Step2: CUDA编程举例vector add Step3: Step4: Step5: Step6: CUDA编程举例vector add Step7: 函数执行 位置: 可以调用的 设备: __device__ float DeviceFunc ( ) GPU GPU __global__ void KernelFunc ( ) GPU CPU __host__ float HostFunc ( ) CPU CPU 对比: 减少Warps分支 什么是Warps 一个block中的每32个线程组成一个warps 这是一种实现的方式,并不是CUDA编程模型中的一部分(在分配线程是可以对线程分配方式进行调整,起

文档评论(0)

1亿VIP精品文档

相关文档