CUDA超大规模并行程序设计.pptVIP

下载本文档

158
0
约2.1万字
约 93页
2016-10-08 发布于重庆
举报
版权申诉

CUDA超大规模并行程序设计.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CUDA超大规模并行程序设计

PoC Modeling Framework 提纲从GPGPU到CUDA CUDA并行程序组织并行执行模型 CUDA基础 CUDA存储器 CUDA程序设计工具程序优化 Graphic Processing Unit (GPU) 用于个人计算机、工作站和游戏机的专用图像显示设备显示卡 nVidia和ATI (now AMD)是主要制造商 Intel准备通过Larrabee进入这一市场主板集成 Intel 3维图像流水线实时3维高速图形处理一帧典型图像 1M triangles 3M vertices 25M fragments 30 frames/s 30M triangles/s 90M vertices/s 750M fragments/s 传统GPU架构 GPU的强大运算能力 General Purpose Computing on GPU (GPGPU) GPGPU 核心思想用图形语言描述通用计算问题把数据映射到vertex或者fragment处理器但是硬件资源使用不充分存储器访问方式严重受限难以调试和查错高度图形处理和编程技巧 NVidia G200 Architecture CUDA: Compute Unified Device Architecture 通用并行计算模型单指令、多数据执行模式 (SIMD) 所有线程执行同一段代码(1000s threads on the fly) 大量并行计算资源处理不同数据隐藏存储器延时提升计算／通信比例合并相邻地址的内存访问快速线程切换1 cycle@GPU vs. ~1000 cycles@CPU 混合计算模型 CUDA: 集成CPU + GPU C应用程序 CPU: 顺序执行代码 GPU = 超大规模数据并行协处理器 “批发”式执行大量细粒度线程 CUDA成功案例 CUDA性能 BLAS3: 127 GFLOPS //基本线性代数: matrix-matrix FFT: 52 benchFFT*GFLOPS FDTD: 1.2 Gcells/sec //计算电动力学 SSEARCH: 5.2 Gcells/sec //Smith-Waterman基因序列比较 Black Scholes: 4.7GOptions/sec //期权定价模型 VMD: 290 GFLOPS //分子动力学图形显示 Problem Instances for Sparse Matrix Vector Product (SMVP) SPMV Throughput on GTX280 SMVP Application: Static Timing Analysis Static Timing Analysis Results on GTX280 提纲从GPGPU到CUDA CUDA并行程序组织并行执行模型 CUDA基础 CUDA存储器 CUDA程序设计工具程序优化并行性的维度 1维 y = a + b //y, a, b vectors 2维 P = M ? N //P, M, N matrices 3维 CT or MRI imaging 并行线程组织结构 Thread: 并行的基本单位 Thread block: 互相合作的线程组 Cooperative Thread Array (CTA) 允许彼此同步通过快速共享内存交换数据以1维、2维或3维组织最多包含512个线程 Grid: 一组thread block 以1维或2维组织共享全局内存 Kernel: 在GPU上执行的核心程序 One kernel ? one grid Parallel Program Organization in CUDA 并行线程执行调用kernel function 需要指定执行配置 Threads和blocks具有IDs threadIdx: 1D, 2D, or 3D blockIdx: 1D, or 2D 由此决定相应处理数据实例1: Element-Wise Addition //CPU program //sum of two vectors a and b void add_cpu(float *a, float *b, int N) { for (int idx = 0; idxN; idx++) a[idx] += b[idx]; } void main() { ..... fun_add(a, b, N); } 提纲从GPGPU到CUDA CUDA并行程序组织并行执行模型 CUDA基础 CUDA存储器 CUDA程序设计工具程序优化 CUDA Processing Flow 并行线程执行 SM内以(warp