gpu通用计算调研报告1、gpu通用计算的背景和动机.pdfVIP

下载本文档

10
0
约2.99万字
约 17页
2016-02-11 发布于天津
举报
版权申诉

gpu通用计算调研报告1、gpu通用计算的背景和动机.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

gpu通用计算调研报告1、gpu通用计算的背景和动机

GPU 通用计算调研报告东南大学杨春山 revised by 同济大学程微宏摘要：NVIDIA 公司在1999 年发布GeForce256 时首先提出 GPU（图形处理器）的概念，随后大量复杂的应用需求促使整个产业蓬勃发展至今。GPU 在这十多年的演变过程中，我们看到 GPU 从最初帮助 CPU 分担几何吞吐量，到 Shader（着色器）单元初具规模，然后出现 Shader 单元可编程性，到今天 GPU 通用计算领域蓬勃发展这一清晰轨迹。本报告首先根据搜集到的资料记录 GPU 通用计算的发展过程中硬件和软件的演变，然后介绍并简要比较现在比较流行的 GPU 通用计算编程模型，最后对 GPU 通用计算在不同领域的成功应用进行概述。关键词：GPU GPU 通用计算可编程单元编程模型 GPGPU应用 1、GPU 通用计算的背景和动机 GPU 英文全称 Graphic Processing Unit，中文翻译为“图形处理器”。GPU 从诞生之日起就以超越摩尔定律的速度发展，运算能力不断提升。业界很多研究者注意到 GPU进行计算的潜力，于2003年SIGGRAPH大会上提出了GPGPU（General-purpose computing on graphics processing units ）的概念。GPU 逐渐从由若干专用的固定功能单元（Fixed Function Unit ）组成的专用并行处理器向以通用计算资源为主，固定功能单元为辅的架构转变。 1.1 为什么要用 GPU 进行计算 GPU 在处理能力和存储器带宽上相对于 CPU 有明显优势，在成本和功耗上也不需要付出太大代价。由于图形渲染的高度并行性，使得 GPU 可以通过增加并行处理单元和存储器控制单元的方式提高处理能力和存储器带宽。GPU 设计者将更多的晶体管用作执行单元，而不是像 CPU 那样用作复杂的控制单元和缓存并以此来提高少量执行单元的执行效率[1]。图 1 对 CPU 与 GPU 中的逻辑架构进行了对比。图 1 CPU和GPU逻辑架构对比 CPU 的整数计算、分支、逻辑判断和浮点运算分别由不同的运算单元执行，此外还有一个浮点加速器。因此，CPU 面对不同类型的计算任务会有不同的性能表现。而 GPU 是由同一个运算单元执行整数和浮点计算，因此，GPU 的整型计算能力与其浮点能力相似。目前，主流 GPU 都采用了统一架构单元，凭借强大的可编程流处理器阵容，GPU 在单精度浮点运算方面将 CPU 远远甩在身后[1]。最顶级的英特尔Core i7 965 处理器，在默认情况下，它的浮点计算能力只有 NVIDIA GeForce GTX 280 的 1/13，与AMD Radeon HD 4870 相比差距就更大。图2 CPU 和 GPU 的每秒浮点运算次数和存储器带宽 GPU 运算相对于 CPU 还有一项巨大的优势，那就是其内存子系统，也就是 GPU 上的显存[1]。当前桌面级顶级产品 3 通道 DDR3-1333 的峰值是 32GB/S，实测中由于诸多因素带宽在 20 GB/S 上下浮动。AMD HD 4870 512MB 使用了带宽超高的 GDDR5 显存，内存总线数据传输率为 3.6T/s 或者说 107GB/s 的总线带宽。NVIDIA GTX280 使用了高频率 GDDR3 显存，但是其显存控制器支持的位宽达到了 512bit，搭载 16 颗 0.8ns GDDR3 显存，带宽高达惊人的 142GB/s。而主流GPU 普遍拥有 40-60 GB/s 显存带宽。存储器的超高带宽让巨大的浮点运算能力得以稳定吞吐，也为数据密集型任务的高效运行提供了保障。还有，从 GTX200 和 HD 4870 系列 GPU 开始，AMD 和 NVIDIA 两大厂商都开始提供对双精度运算的支持，这正是不少应用领域的科学计算都需要的。NVIDIA 公司最新的 Fermi 架构更是将全局 ECC （Error Checking and Correcting ）、可读写缓存、分支预测等技术引入到 GPU 的设计中，明确了将GPU 作为通用计算核心的