- 0
- 0
- 约1.29万字
- 约 4页
- 2026-01-28 发布于浙江
- 举报
2014年5月15日现代电子技术May2014
第37卷第10期ModernElectronicsTechniqueVol.37No.10
137
137
缓存结构GPU矩阵乘法算法的自动优化
1211
李晓雯,崔翔,殷瑞杰,刘强
(1.防空兵学院指挥控制系,河南郑州450000;2.河南大学计算机与信息工程学院,河南开封475003)
摘要:讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性
(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能
相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla
C2050GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。
关键词:GPU程序设计;矩阵乘法;自动优化;GEMM模板
中图分类号:TN40;TP312文献标识码:A文章编号:1004⁃373X(2014)10⁃0137⁃04
Auto⁃tuningofmatrixmultiplicationforFermiGPU
1211
LIXiao⁃wen,CUIXiang,YINRui⁃jie,LIUQiang,
(1.DepartmentofCommandandControl,AirDefenseForcesAcademy,Zhengzhou450000,China;
2.CollegeofComputerInformationEngineering,HenanUniversity,Kaifeng475003,China)
Abstract:AutomaticoptimizationofGEMMalgorithmonFermiGPUandtheimpactofFermiGPU’sarchitecturalfea⁃
turesonperformancearediscussedinthispaper.ThecacheonGPUcannotonlyimprovethedataaccesslocalityofproces⁃
sors,butalsomakethecodeperformancerelyingonrelativealgorithmparametersunpredictable.Auto⁃tuningcanbeusedto
solvethisproblem.Auto⁃tunedSGEMMandDGEMMcodesachieve563GFlopsand253GFlopsrespectivelyonC2050GPU.
ThecodesareimplementedbyusingCUDAandClanguage,buttheoptimizationonthebinaryleveli
您可能关注的文档
- 航天器三自由度模拟器自动配平.docx
- 恒电位仪自动测量的设计.docx
- 恒电位仪自动测量的设计.pdf
- 虹湾地区月面撞击坑自动提取.docx
- 化工仪表及自动化例题与习题集.docx
- 化工仪表及自动化培训教程(801页).docx
- 缓存结构GPU矩阵乘法算法的自动优化.docx
- 混合的大规模数据库自动模式抽象方法.pdf
- 火力发电厂自动补偿式炉膛压力测量装置应用前景分析.docx
- 火力发电企业燃料自动监管系统的设计及应用.docx
- 火力发电职业技能培训教材 热工仪表及自动装置复习题与题解.docx
- 火灾自动报警系统环形总线设计应用.docx
- 机场地面飞机自动监视车载装置的设计与研究.docx
- 机房系统自动化监测预警平台的设计与实现.docx
- 机器自动化控制器原理与应用 [徐世许 编] 2013年版_51-100.docx
- 机器自动化控制器原理与应用 [徐世许 编] 2013年版_201-250.docx
- 机器自动化控制器原理与应用 [徐世许 编] 2013年版_251-300.docx
原创力文档

文档评论(0)