TILE_WIDTH2的子矩阵每个线程块中有-Read.PPTVIP

  • 20
  • 0
  • 约7.87千字
  • 约 46页
  • 2018-07-05 发布于天津
  • 举报

TILE_WIDTH2的子矩阵每个线程块中有-Read.PPT

TILE_WIDTH2的子矩阵每个线程块中有-Read

矩阵乘法示例 矩阵P = M * N 大小为 WIDTH x WIDTH 在没有采用分片优化算法的情况下: 一个线程计算P矩阵中的一个元素 M和N需要从全局存储器载入WIDTH次 向GPU传输矩阵数据 void MatrixMulOnDevice(float* M, float* N, float* P, int Width) { int size = Width * Width * sizeof(float); float* Md, Nd, Pd; //设置调用内核函数时的线程数目 dim3 dimBlock(Width, Width); dim3 dimGrid(1, 1); //在设备存储器上给M和N矩阵分配空间,并将数据复制到设备存储器中 cudaMalloc(Md, size); cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice); cudaMalloc(Nd, size); cudaMemcpy(Nd, N, size, cudaMemcpyHostToDevice); //在设备存储器上给P矩阵分配空间 cudaMalloc(Pd, size); 计算结果向主机传输 //内核函数调用 //只使用了一个线程块(dimGrid)

文档评论(0)

1亿VIP精品文档

相关文档