- 42
- 0
- 约5.08千字
- 约 38页
- 2017-08-20 发布于重庆
- 举报
基于CUDA的GPU并行计算.ppt
优化原则:active block 一个SM中可以有多个block等待处理,在一个warp需要访问存储器或者同步时,另外一个warp可以使用执行单元的资源 增加active block对提高SM利用率有好处 增加active block只是手段,不是最终的评价标准。最终目的是要隐藏延迟 优化原则:active block 每个SM最多可以有768(G8x,G9x)或者1024(GT200)个active thread 这些active thread最多可以属于8个block 还有受到SM中shared memory和register的制约 最后的active block数量是由以上四个条件中的“短板”决定 并行计算 Vector Reduction with Branch Divergence 0 1 2 3 4 5 7 6 10 9 8 11 0+1 2+3 4+5 6+7 10+11 8+9 0...3 4..7 8..11 0..7 8..15 1 2 3 Thread 0 Thread 8 Thread 2 Thread 4 Thread 6 Thread 10 A simple implementation Assume we have already loaded array into __shared__ float partialSum[] unsigned in
您可能关注的文档
最近下载
- 2025年初级qc小组考试试题及答案.docx VIP
- 高考物理题型归纳与变式演练卷:动量问题综合.pdf VIP
- qc小组初级考试试题及答案.doc VIP
- 2025版高考物理考点题型归纳总结(含答案)考点32 动量 冲量 动量定理.docx VIP
- 中考物理压轴题及答案(力学).doc VIP
- 2025年综合类-验船师考试-验船师船体部分历年真题摘选带答案(5套合计100道单选).docx VIP
- 小猪佩奇第一季中英台词互译(21-30)集.pdf VIP
- 单片机原理及应用技术(第3版)+李全利+习题答案 .pdf VIP
- 2025年《QC小组基础教材》培训考试试卷 .pdf VIP
- 2025年内蒙古大学中国近现代史纲要期末考试模拟题附答案.docx VIP
原创力文档

文档评论(0)