缓存结构GPU矩阵乘法算法的自动优化.pdfVIP

  • 0
  • 0
  • 约1.29万字
  • 约 4页
  • 2026-01-28 发布于浙江
  • 举报

缓存结构GPU矩阵乘法算法的自动优化.pdf

2014年5月15日现代电子技术May2014

第37卷第10期ModernElectronicsTechniqueVol.37No.10

137

137

缓存结构GPU矩阵乘法算法的自动优化

1211

李晓雯,崔翔,殷瑞杰,刘强

(1.防空兵学院指挥控制系,河南郑州450000;2.河南大学计算机与信息工程学院,河南开封475003)

摘要:讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性

(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能

相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla

C2050GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。

关键词:GPU程序设计;矩阵乘法;自动优化;GEMM模板

中图分类号:TN40;TP312文献标识码:A文章编号:1004⁃373X(2014)10⁃0137⁃04

Auto⁃tuningofmatrixmultiplicationforFermiGPU

1211

LIXiao⁃wen,CUIXiang,YINRui⁃jie,LIUQiang,

(1.DepartmentofCommandandControl,AirDefenseForcesAcademy,Zhengzhou450000,China;

2.CollegeofComputerInformationEngineering,HenanUniversity,Kaifeng475003,China)

Abstract:AutomaticoptimizationofGEMMalgorithmonFermiGPUandtheimpactofFermiGPU’sarchitecturalfea⁃

turesonperformancearediscussedinthispaper.ThecacheonGPUcannotonlyimprovethedataaccesslocalityofproces⁃

sors,butalsomakethecodeperformancerelyingonrelativealgorithmparametersunpredictable.Auto⁃tuningcanbeusedto

solvethisproblem.Auto⁃tunedSGEMMandDGEMMcodesachieve563GFlopsand253GFlopsrespectivelyonC2050GPU.

ThecodesareimplementedbyusingCUDAandClanguage,buttheoptimizationonthebinaryleveli

文档评论(0)

1亿VIP精品文档

相关文档