CPU与GPU上几种矩阵乘法的比较与分析.pdfVIP

CPU与GPU上几种矩阵乘法的比较与分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ComputerEngineeringandApplications计算机工程与应用 9 CPU与GPU上几种矩阵乘法的比较与分析 刘进锋,郭 雷 LIU Jinfeng,GUO Lei 西北工业大学 自动化学院,西安 710129 SchoolofAutomation,NorthwesternPolytechnicalUniversity,Xi’an 710129,China LIU Jinfeng,GUO Lei.Comparison and analysisofmatrix multiplications on GPU and CPU.Computer Engineering andApplications。2011,47(19):9-11. Abstract:Three matrix multiplications on CPU and four CUDA-based matrix multiplications on GPU are described,the causesofhigh performancearean~yzedandhte common characteristicofefficientalgorithm isthatdata areproperly orga- nizedandrationallyutilized,and thereforehteaccesscosteffectively reducedandhte speed isgreatly improved.Thebest叩 - timized implementation on CPU gain more200 timesfasthtan hte common one,htebestoptimized implementation on GPU gain about 6 timesfasthtan htebestoneon CPU. Keywords:matrixmultiplic~ion;ComputeUnifiedDeviceArchitecture(CUDA);GraphicProcessingUnit(GPU);storagepaaem 摘 要:描述了矩阵乘法在CPU上的三种实现方法和在GPU_.L基于CUDA架构的四种实现方法,分析了高性能方法的原 由,发 现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU._L的最优 实现方法比普通算法快了200多倍,GPU_k_的最优实现方法又比CPUt的最优实现方法快了约6倍。 关键词:矩阵乘法;统一计算设备架构;图形处理器;存储模式 DOI:10.3778~.issn.1002·8331.2011.19.003 文章编号:1002-8331(2011)19-0009-03 文献标识码:A 中图分类号:TP301 1 概述 拉越大。GPU卓越的性能对开发GPGPU(使用GPU进行通用 矩阵乘法是一种计算中经常用到并且很耗时的运算。研 计算)非常具有吸引力。近年来,GPU的主要供应商NVIDIA 究测试各种矩阵乘法的实现方式,找到快速有效的算法具有 提出了新的GPGPU模型,称为CUDAt。详细描述并分析了4 很高的实用价值;分析总结这些算法对研究其他高性能计算 种 GPU上基于CUDA的矩阵乘法,它们的性能依次提高。 也有很好的参考价值。 GPU上高效率的算法实现需要充分利用GPU多核的计算能力 一 般而言,算法效率的改进主要可以通过两种途径来实 以及降低存取开销。CPU和GPU上矩阵乘法的高效算法的共 现:(1)降低计算复杂度;(2)减少程序在存取数据时所花费的 同的特征都是尽力把存取开销降到最低。 时间。 为了简单起见,本文以NxN的方阵为例,两个矩阵 和 有很多降低矩阵乘法的计算复杂度的研究,但降低幅度 ,计算C=A*B。A、B和C都是单精度浮点数。 有限n,而且很难真正在计算机上有效实现。在这种涉及大量 数据的运算中,如果不做优化,存储操作的开销往往是程序执

文档评论(0)

蝶恋花 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档