基于CUDA的GPU并行计算.pptVIP

  • 42
  • 0
  • 约5.08千字
  • 约 38页
  • 2017-08-20 发布于重庆
  • 举报
基于CUDA的GPU并行计算.ppt

优化原则:active block 一个SM中可以有多个block等待处理,在一个warp需要访问存储器或者同步时,另外一个warp可以使用执行单元的资源 增加active block对提高SM利用率有好处 增加active block只是手段,不是最终的评价标准。最终目的是要隐藏延迟 优化原则:active block 每个SM最多可以有768(G8x,G9x)或者1024(GT200)个active thread 这些active thread最多可以属于8个block 还有受到SM中shared memory和register的制约 最后的active block数量是由以上四个条件中的“短板”决定 并行计算 Vector Reduction with Branch Divergence 0 1 2 3 4 5 7 6 10 9 8 11 0+1 2+3 4+5 6+7 10+11 8+9 0...3 4..7 8..11 0..7 8..15 1 2 3 Thread 0 Thread 8 Thread 2 Thread 4 Thread 6 Thread 10 A simple implementation Assume we have already loaded array into __shared__ float partialSum[] unsigned in

文档评论(0)

1亿VIP精品文档

相关文档