GPU入门技术介绍.pptVIP

  • 10
  • 0
  • 约6.14千字
  • 约 34页
  • 2021-03-18 发布于广东
  • 举报
2021/3/14 * CUDA程序优化 指令优化 选用计算复杂度较小的算法,处理字长为32bit 并行度高,粗粒度并行多,细粒度并行有局部性 分支映射成固定运算,展开代码避免循环 在精度允许的前提下使用带有__前缀的快速算法,只在必要的部分使用双精度和64-bit int 使用移位运算代替整数除法和求余 使用vote,atomic,red等intrinsic函数实现算法 只在线程间通信前进行同步 2021/3/14 * CUDA程序优化 存储器访问优化 对显存的I/O成本很高,提高两次对显存访问之间的计算量,通过同时计算与访存隐藏延时 把适合的数据放入纹理和常数缓存等缓解带宽压力,提高读取速度 避免bank conflict,非合并访问或cpu-gpu数据传输 使用数组的结构体,而不是结构体数组 使用对齐,类型转换等手段实现合并访问 2021/3/14 * * 英特尔(Intel)创始人之一戈登·摩尔,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍 (为了不断提升处理速度,从处理器诞生的那天起到现在发展到今天已经经历了 好几代的技术革新,比如说对制作工艺,缓存,流水线技术等改进,但是当单核 处理器发展到一定阶段,人们发现单纯的依靠增加处理器主频的方式提高处理器 性能遇到了瓶颈), (一味的以增加单核处理器主频,散热量将异常大,甚至超过太阳表面的温度) * (完成用户的任务,耗时图形) 2021/3/14 * GPU GPU简介 GPU研究现状 GPU内部架构 CUDA编程模型 CUDA存储器模型 CUDA程序实例 CUDA程序优化 2021/3/14 * GPU简介 单核处理器芯片已经到了尽头 Power Wall 功耗大 Memory Wall 存储器延迟很难降低,缓存占据70%芯片面积 2021/3/14 * GPU简介 多核和众核时代 多个适当复杂度、低功耗核心并行工作 时钟频率基本不变 未来计算机硬件不会更快,但会更“宽” 必须重新设计算法 “Multicore: This is the one which will have the biggest impact on us. We have never had a problem to solve like this. A breakthrough is needed in how applications are done on multicore devices.” -Bill Gates, Microsoft 2021/3/14 * GPU简介 GPU,Graphics Processing Unit的简写,是 现代显卡中非常重要的一个部分,其地位与 CPU在主板上的地位一致,主要负责的任务 是加速图形处理速度。 GPU是一个高度并行化的多线程、多核心处 理器。 2021/3/14 * GPU简介 GPU/CPU计算能力比较 2021/3/14 * GPU简介 GPU/CPU存储器带宽比较 2021/3/14 * GPU简介 市场迫切需要实时、高清晰度的 3D 图形,可编程的 GPU 已发展成为一种高度并行化、多线程、多核心的处理器,具有杰出的计算能力和极高的存储器带宽。 GPU极大提升了计算机图形处理的速度、增强了图形的质量,并促进了与计算机图形相关其他应用领域的快速发展。与中央处理器(Central Processing Unit,CPU)的串行设计模式不同,GPU为图形处理设计,具有天然的并行特性。 2021/3/14 * GPU简介 型号 适用用户 GeForce 家庭和企业的娱乐应用,面向游戏用户 Quadro 应用于图形工作站,面向专业级用户 Tesla 用于高性能通用计算,面向研究人员 Tegra 适用于移动设备 Ion 上网本 2021/3/14 * GPU研究现状 NVIDIA在1999年推出了第一款GPU产品-GeForce 256。主要任务是进行图形渲染任务,缓解CPU压力。 从GPU诞生那天开始,其发展脚步就没有停止下来,由于其独特的体系架构和超强的浮点运算能力,人们希望将某些通用计算问题移植到GPU上来完成以提升效率,出现了所谓的GPGPU(General Purpose Graphic Process Unit),但是由于其开发难度较大,没有被广泛接受。 2006年NVIDIA推出了第一款基于Tesla架构的GPU(G80),GPU已经不仅仅局限于图形渲染,开始正式向通用计算领域迈进。 2021/3/14 * GPU研究现状 2007年6月,NVIDIA推出了CUDA(Computer Unified Device Architecture计算统一设备结构)。CUDA

文档评论(0)

1亿VIP精品文档

相关文档