缓存结构GPU矩阵乘法算法的自动优化.pdfVIP

缓存结构GPU矩阵乘法算法的自动优化.pdf

2014年5月15日现代电子技术May2014

第37卷第10期ModernElectronicsTechniqueVol.37No.10

137

缓存结构GPU矩阵乘法算法的自动优化

1211

李晓雯，崔翔，殷瑞杰，刘强

（1.防空兵学院指挥控制系，河南郑州450000；2.河南大学计算机与信息工程学院，河南开封475003）

摘要：讨论在Fermi结构GPU使用CUDA对GEMM（单精度和双精度）算法进行优化，以及Fermi体系结构的新特性

（如缓存）对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性，另一方面使得代码性能对与性能

相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla

C2050GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现，未进行二进制代码级别的优化。

关键词：GPU程序设计；矩阵乘法；自动优化；GEMM模板

中图分类号：TN40；TP312文献标识码：A文章编号：1004⁃373X（2014）10⁃0137⁃04

Auto⁃tuningofmatrixmultiplicationforFermiGPU

1211

LIXiao⁃wen，CUIXiang，YINRui⁃jie，LIUQiang，

（1.DepartmentofCommandandControl，AirDefenseForcesAcademy，Zhengzhou450000，China；

2.CollegeofComputerInformationEngineering，HenanUniversity，Kaifeng475003，China）

Abstract：AutomaticoptimizationofGEMMalgorithmonFermiGPUandtheimpactofFermiGPU’sarchitecturalfea⁃

turesonperformancearediscussedinthispaper.ThecacheonGPUcannotonlyimprovethedataaccesslocalityofproces⁃

sors，butalsomakethecodeperformancerelyingonrelativealgorithmparametersunpredictable.Auto⁃tuningcanbeusedto

solvethisproblem.Auto⁃tunedSGEMMandDGEMMcodesachieve563GFlopsand253GFlopsrespectivelyonC2050GPU.

ThecodesareimplementedbyusingCUDAandClanguage，buttheoptimizationonthebinaryleveli

更多 >