CPU与GPU上几种矩阵乘法的比较与分析-计算机工程与应用.PDFVIP

CPU与GPU上几种矩阵乘法的比较与分析-计算机工程与应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CPU与GPU上几种矩阵乘法的比较与分析-计算机工程与应用.PDF

Computer Engineering and Applications 计算机工程与应用 2011 ,47 (19) 9 CPU 与GPU 上几种矩阵乘法的比较与分析 刘进锋,郭 雷 LIU Jinfeng ,GUO Lei 西北工业大学 自动化学院,西安 710129 School of Automation ,Northwestern Polytechnical University ,Xi ’an 710129 ,China LIU Jinfeng ,GUO Lei.Comparison and analysis of matrix multiplications on GPU and CPU.Computer Engineering and Applications ,2011 ,47 (19):9-11. Abstract :Three matrix multiplications on CPU and four CUDA-based matrix multiplications on GPU are described ,the causes of high performance are analyzed and the common characteristic of efficient algorithm is that data are properly orga- nized and rationally utilized ,and therefore the access cost effectively reduced and the speed is greatly improved.The best op- timized implementation on CPU gain more 200 times fast than the common one ,the best optimized implementation on GPU gain about 6 times fast than the best one on CPU. Key words :matrix multiplication ;Compute Unified Device Architecture(CUDA );Graphic Processing Unit(GPU );storage pattern 摘 要:描述了矩阵乘法在CPU 上的三种实现方法和在GPU 上基于CUDA 架构的四种实现方法,分析了高性能方法的原由,发 现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU 上的最优 实现方法比普通算法快了200 多倍,GPU 上的最优实现方法又比CPU 上的最优实现方法快了约6 倍。 关键词:矩阵乘法;统一计算设备架构;图形处理器;存储模式 DOI :10.3778/j.issn. 1002-8331.2011.19.003 文章编号:1002-8331(2011 )19-0009-03 文献标识码:A 中图分类号:TP301 1 概述 拉越大。GPU 卓越的性能对开发GPGPU(使用GPU 进行通用 矩阵乘法是一种计算中经常用到并且很耗时的运算。研 计算)非常具有吸引力。近年来,GPU 的主要供应商NVIDIA 究测试各种矩阵乘法的实现方式,找到快速有效的算法具有 提出了新的GPGPU 模型,称为CUDA[2] 。详细描述并分析了4 很高的实用价值;分析总结这些算法对研究其他高性能计算 种GPU 上基于CUDA 的矩阵乘法,它们的性能依次提高。 也有很好的参考价值。 GPU 上高效率的算法实现需要充分利用GPU 多核的计算能力 一般而言,算法效率的改进主要可以通过两种途径来实 以及降低存取开销。CPU 和GPU 上矩阵乘法的高效算法的共 现:(1)降低计算复杂度;(2 )减少程序在存取数据时所花费的 同的特征都是尽力把存取开销降到最低。 时间。

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档