lectur4_CUDA并行模型.pptVIP

  • 3
  • 0
  • 约1.16千字
  • 约 37页
  • 2017-06-14 发布于河南
  • 举报
lectur4_CUDA并行模型

2013 HPC 课程 HPC课程:GPU编程之CUDA 基于Kernel的数据并行执行模型 彭博 ;目标;;;;一个处理图像的Kernel源代码;;一个简单的可运行的例子 矩阵相乘;编程模型: 方矩阵相乘例子;;矩阵相乘 简单的Host端执行的C代码;Kernel函数- 一个小的例子;一个稍微大些的例子;一个再大一些的例子; // 线程配置 // TILE_WIDTH 是一个用“#define”定义的常量 dim3 dimGrid(Width/TILE_WIDTH, Width/TILE_WIDTH, 1); dim3 dimBlock(TILE_WIDTH, TILE_WIDTH, 1); // 开始在device端执行该Kernel函数! MatrixMulKerneldimGrid, dimBlock(Md, Nd, Pd, Width);;Kernel函数;Col = 0 * 2 + threadIdx.x Row = 0 * 2 + threadIdx.y;Block (0,1)计算过程演示;一个简单的矩阵相乘Kernel;CUDA Thread Block(线程块);并行的历史;并行的历史(续);? David Kirk/NVIDIA and Wen-mei Hwu, 2007-2012

文档评论(0)

1亿VIP精品文档

相关文档