GPU上实现的向量点积的性能分析.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GPU上实现的向量点积的性能分析,手机gpu性能排行,手机gpu性能天梯图,2015手机gpu性能排行,gpu高性能运算之cuda,高性能gpu时钟,gpu性能排行,高性能gpu时钟设置,androidgpu性能分析,gpu性能

Computer Engineering and Applications 计算机工程与应用 2012 ,48 (2 ) 201 GPU 上实现的向量点积的性能分析 郭 雷,刘进锋 GUO Lei, LIU Jinfeng 西北工业大学 自动化学院,西安 710129 School of Automation ,Northwestern Polytechnical University, Xi ’an 710129, China GUO Lei, LIU Jinfeng. Performance analysis of vector dot product on GPU. Computer Engineering and Applications, 2012, 48 (2 ):201-202. Abstract :CUDA is a convenient use of GPU for general computing. This paper researches several vector dot product algorithms based on CUDA, comparison and analysis of their performances and causes. Experiment shows that the best algorithm is faster than the CPU algorithm for about 7 times. Key words :Compute Unified Device Architecture(CUDA ); Graphic Processing Unit(GPU ); vector dot product 摘 要:CUDA 是一种较为简便的利用GPU 进行通用计算的技术。研究了GPU 上基于CUDA 的几种向量点积算法,比较、分析 了每种算法的性能。实验表明,GPU 上最快的算法比CPU 上的算法快了约7 倍。 关键词:统一设备计算架构(CUDA );图形处理器(GPU );向量点积 DOI :10.3778/j.issn. 1002-8331.2012.02.058 文章编号:1002-8331(2012 )02-0201-02 文献标识码:A 中图分类号:TP311 1 基于CUDA 的GPU 计算简介 (1)安排很多线程运行,隐藏全局内存的巨大延迟。存取 GPU (图形处理器)原本是处理计算机图形的专用设备, 全局内存通常需要数百个周期,并且没有cache。要避开这样 近十年来,由于高清晰度复杂图形实时处理的需求,GPU 发展 巨大的延迟,就要利用大量的线程同时执行。这样当一个线 成为高并行度、多线程、多核的处理器。目前主流GPU 的运算 程读取内存,开始等待结果的时候,GPU 就可以立刻切换到下 能力已超过主流通用CPU ,从发展趋势上来看将来差距会越 一个线程,并读取下一个内存位置。当线程的数目够多的时 拉越大。GPU 卓越的性能对开发GPGPU(使用GPU 进行通用 候,一定程度上可以把全局内存的巨大延迟隐藏起来了。 计算)非常具有吸引力。最初GPGPU 需要将非图形应用映射 (2 )优化使用寄存器和共享内存,以减少访存开销。每个 为图形应用的方式,这个处理过程与图形硬件紧密相关,程序 SM (流式多处理器)包含存取速度很快但数量有限的寄存器 实现非常艰涩别扭。近年来,GPU 的主要供应商NVIDIA 提 和共享内存,由于这两种资源有限,所以在使用时需要特别细 出了新的GPGPU 模型,称为CUDA[1] 。 致的安排。如果不小心超过了使用数量,CUDA 会不得不使用 CUDA 是一种在NVIDIA 公司的GPU 上进行计算的新型 速度很慢的本地内存或全局内存,程序效率会受到很大影响。 的硬件和软件架构,可以将GPU 视为一个并行数据计算的设 (3)解决分支指令的问题。通常GPU 处理分支判断的效 备,对所进行的计算进行分配和管理。在CUDA 的架构中,这

文档评论(0)

docindpp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档