- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ComputerEngineeringandApplications计算机工程与应用 9
CPU与GPU上几种矩阵乘法的比较与分析
刘进锋,郭 雷
LIU Jinfeng,GUO Lei
西北工业大学 自动化学院,西安 710129
SchoolofAutomation,NorthwesternPolytechnicalUniversity,Xi’an 710129,China
LIU Jinfeng,GUO Lei.Comparison and analysisofmatrix multiplications on GPU and CPU.Computer Engineering
andApplications。2011,47(19):9-11.
Abstract:Three matrix multiplications on CPU and four CUDA-based matrix multiplications on GPU are described,the
causesofhigh performancearean~yzedandhte common characteristicofefficientalgorithm isthatdata areproperly orga-
nizedandrationallyutilized,and thereforehteaccesscosteffectively reducedandhte speed isgreatly improved.Thebest叩 -
timized implementation on CPU gain more200 timesfasthtan hte common one,htebestoptimized implementation on GPU
gain about 6 timesfasthtan htebestoneon CPU.
Keywords:matrixmultiplic~ion;ComputeUnifiedDeviceArchitecture(CUDA);GraphicProcessingUnit(GPU);storagepaaem
摘 要:描述了矩阵乘法在CPU上的三种实现方法和在GPU_.L基于CUDA架构的四种实现方法,分析了高性能方法的原 由,发
现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU._L的最优
实现方法比普通算法快了200多倍,GPU_k_的最优实现方法又比CPUt的最优实现方法快了约6倍。
关键词:矩阵乘法;统一计算设备架构;图形处理器;存储模式
DOI:10.3778~.issn.1002·8331.2011.19.003 文章编号:1002-8331(2011)19-0009-03 文献标识码:A 中图分类号:TP301
1 概述 拉越大。GPU卓越的性能对开发GPGPU(使用GPU进行通用
矩阵乘法是一种计算中经常用到并且很耗时的运算。研 计算)非常具有吸引力。近年来,GPU的主要供应商NVIDIA
究测试各种矩阵乘法的实现方式,找到快速有效的算法具有 提出了新的GPGPU模型,称为CUDAt。详细描述并分析了4
很高的实用价值;分析总结这些算法对研究其他高性能计算 种 GPU上基于CUDA的矩阵乘法,它们的性能依次提高。
也有很好的参考价值。 GPU上高效率的算法实现需要充分利用GPU多核的计算能力
一 般而言,算法效率的改进主要可以通过两种途径来实 以及降低存取开销。CPU和GPU上矩阵乘法的高效算法的共
现:(1)降低计算复杂度;(2)减少程序在存取数据时所花费的 同的特征都是尽力把存取开销降到最低。
时间。 为了简单起见,本文以NxN的方阵为例,两个矩阵 和
有很多降低矩阵乘法的计算复杂度的研究,但降低幅度 ,计算C=A*B。A、B和C都是单精度浮点数。
有限n,而且很难真正在计算机上有效实现。在这种涉及大量
数据的运算中,如果不做优化,存储操作的开销往往是程序执
您可能关注的文档
- (2+1)-维色散长波方程新的精确行波解.pdf
- (n+1)维Wick型随机Chaffee-Infante方程的精确解.pdf
- [Amim]Cl离子液体中微波辐射加热促进稻草秸秆酸水解制备还原糖.pdf
- ^99mTc-MDP骨显像诊断肾性骨病的临床意义.pdf
- ‘赞皇大枣’增殖培养研究.pdf
- “90后”大学生对传统文化的认知和态度——广东10所高校大学生的问卷调查与分析.pdf
- “2011年国际锆业大会”5月17日在包头召开.pdf
- “不谴责”安全文化的机理与运用.pdf
- “测交实验”的分析与教学建议.pdf
- “唱读讲传”活动是群众自我教育的好形式.pdf
- 多维视角下合作技术创新风险识别方法探究与实践.docx
- 王老师谢谢您550字10篇范文.docx
- 建设高端介入医疗设备及高值耗材项目可行性研究报告模板-立项备案.doc
- 探寻中职学生消费密码:现状洞察、问题剖析与策略构建.docx
- 数字化转型下A商业银行贷款风险分类管理的创新与实践.docx
- 2025-2026学年中职专业课-智能设备运行与维护-装备制造大类教学设计合集.docx
- 从历史演进中洞察:近代有机化学思想的变革与发展.docx
- 人力资源管理专业进修证明书(6篇).docx
- 物业小区管理维护合同.doc
- 2025-2026学年中职专业课-种植基础-农林类-农林牧渔大类教学设计合集.docx
文档评论(0)