- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CPU与GPU上几种矩阵乘法的比较与分析-计算机工程与应用.PDF
Computer Engineering and Applications 计算机工程与应用 2011 ,47 (19) 9
CPU 与GPU 上几种矩阵乘法的比较与分析
刘进锋,郭 雷
LIU Jinfeng ,GUO Lei
西北工业大学 自动化学院,西安 710129
School of Automation ,Northwestern Polytechnical University ,Xi ’an 710129 ,China
LIU Jinfeng ,GUO Lei.Comparison and analysis of matrix multiplications on GPU and CPU.Computer Engineering
and Applications ,2011 ,47 (19):9-11.
Abstract :Three matrix multiplications on CPU and four CUDA-based matrix multiplications on GPU are described ,the
causes of high performance are analyzed and the common characteristic of efficient algorithm is that data are properly orga-
nized and rationally utilized ,and therefore the access cost effectively reduced and the speed is greatly improved.The best op-
timized implementation on CPU gain more 200 times fast than the common one ,the best optimized implementation on GPU
gain about 6 times fast than the best one on CPU.
Key words :matrix multiplication ;Compute Unified Device Architecture(CUDA );Graphic Processing Unit(GPU );storage pattern
摘 要:描述了矩阵乘法在CPU 上的三种实现方法和在GPU 上基于CUDA 架构的四种实现方法,分析了高性能方法的原由,发
现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU 上的最优
实现方法比普通算法快了200 多倍,GPU 上的最优实现方法又比CPU 上的最优实现方法快了约6 倍。
关键词:矩阵乘法;统一计算设备架构;图形处理器;存储模式
DOI :10.3778/j.issn. 1002-8331.2011.19.003 文章编号:1002-8331(2011 )19-0009-03 文献标识码:A 中图分类号:TP301
1 概述 拉越大。GPU 卓越的性能对开发GPGPU(使用GPU 进行通用
矩阵乘法是一种计算中经常用到并且很耗时的运算。研 计算)非常具有吸引力。近年来,GPU 的主要供应商NVIDIA
究测试各种矩阵乘法的实现方式,找到快速有效的算法具有 提出了新的GPGPU 模型,称为CUDA[2] 。详细描述并分析了4
很高的实用价值;分析总结这些算法对研究其他高性能计算 种GPU 上基于CUDA 的矩阵乘法,它们的性能依次提高。
也有很好的参考价值。 GPU 上高效率的算法实现需要充分利用GPU 多核的计算能力
一般而言,算法效率的改进主要可以通过两种途径来实 以及降低存取开销。CPU 和GPU 上矩阵乘法的高效算法的共
现:(1)降低计算复杂度;(2 )减少程序在存取数据时所花费的 同的特征都是尽力把存取开销降到最低。
时间。
您可能关注的文档
- 4-5_设计产品品质度量指标应用ISO-IEC.PDF
- 5.3光学变换矩阵.doc
- 5.4.2多元线性回归.ppt
- 5.4非严格正则系统-people.Virginia.EDU.doc
- 5.VM88矩阵网页控制.doc
- 5.二进制和数字运算指令.PDF
- 5循环和关系表达式.PDF
- 5.2正弦量的相量表示法.doc
- 6-1-3极限的概念-连续函数.PDF
- 6.6子空间的交与和.doc
- 2025-2026学年小学英语人教精通版三年级下册-人教精通版(2012)教学设计合集.docx
- 2025-2026学年初中地理七年级上册湘教版(2024)教学设计合集.docx
- 2025-2026学年小学心理健康五年级上册北师大版(2021)教学设计合集.docx
- 2025-2026学年初中历史与社会部编版九年级下册-部编版教学设计合集.docx
- 2025-2026学年初中音乐苏少版五线谱2024七年级上册-苏少版五线谱2024教学设计合集.docx
- 2025-2026学年初中地理七年级下册(2024)湘教版(2024)教学设计合集.docx
- 2025-2026学年小学综合实践活动四年级下册内蒙古版(2019)教学设计合集.docx
- 2025-2026学年小学书法练习指导三年级下册湘美版教学设计合集.docx
- 2025-2026学年小学科学鄂教版三年级上册-鄂教版(2001)教学设计合集.docx
- 2025-2026学年小学信息技术(信息科技)四年级下册浙摄影版(2013)教学设计合集.docx
最近下载
- 国有企业采购管理规范.docx VIP
- YBT5194-2024 改质沥青-报批稿.pdf VIP
- 基于地理学科核心素养的高中地理学生综合思维能力培养策略研究教学研究课题报告.docx
- 快速康复外科讲课PPT课件.pptx
- 铝粉浆安全技术说明书.pdf VIP
- TYNESS 003-2024 工业企业环境风险双重预防机制建设技术指南 污染源辨识与分级.pdf VIP
- DL T 1506-2016 高压交流电缆在线监测系统通用技术规范.pdf VIP
- 邮轮英语中职课件.pptx
- 新时代中国特色社会主义与实践(2024版)课后思考题答案.docx
- 深化产教融合协同:XX学校“十五五”校企合作发展规划.docx VIP
原创力文档


文档评论(0)