CUTLASS跨平台编译与优化.pdfVIP

  • 2
  • 0
  • 约4.92万字
  • 约 33页
  • 2026-03-02 发布于广东
  • 举报

陈龙

中科加禾CTO

曾于中国科学院计算技术研究所获得博士学位,研究方向包括编译技术、并行计算及异构计

算。陈龙博士多年从事面向国产芯片的编程与编译技术研发工作,曾任华为编译器与编程语

言实验室架构师,主导过多项国产化芯片的编译器产品开发工作。技术涵盖高性能服务器、

无线通信、AI加速芯片等多个领域,面向市场获广泛应用。基于多年在芯片基础软件建设

上的经验积累,于2023年联合创办了中科加禾科技有限公司,致力于解决国产AI算力落地

应用所面临的困难。中科加禾通过全系统优化、编译技术及工具加持,提供大模型推理及微

调系统工具,为国产AI算力加速落地提供帮助。

演讲主题:

cutlass跨平台编译优化实践分享

CUTLASS跨平台编译与优化

陈龙-中科加禾

矩阵乘及CUTLASS简要介绍

CUTLASS在A架构上的编译

CUTLASS在A架构上的优化

矩阵乘及CUTLASS简要介绍

CUTLASS在A架构上的编译

CUTLASS在A架构上的优化

矩阵乘的重要性

•矩阵乘是Transformer模型架构的核心计算

=×,

,

)

=

()()()

=ℎ∗

AttentionIsAllYouNeed

矩阵乘优化的难点

情况复杂多样,开发和优化难度较大

•不同的矩阵形状和计算规模•不同的硬件架构和特性

方形/扁长型/瘦高型有无TensorCore

小规模/大规模矩阵相乘有无异步数据传输

计算瓶颈/访存瓶颈…

•不同的数据类型•不同的算法与延申

FP64/FP32/FP16/BF16/INT8/FP8...Batched/SplitK/Back2back...

InputType/OutputType/AccumTypeGemm/Convolution

•不同的数据布局•算子融合的需求

矩阵相乘:=×

NN/NT/TN/TTGemm+Relu

NCHW/NHWC…

CUTLASS

CUTLASS是基于现代C++实现的、面向GPU的矩阵计算加速库

良好的抽象、丰富的优化,开放开源

•模板化CUDAC++编程组件•模板化以容许较大的设计空间

Block-wide/Warp-wide/Thread-wideKernel在布局和问题规模方面的定制

混合精度的运算和存储

•数据移动和计算原语

Kernel融合

Shape

TileIterator/Fragment•常量化

Gemm/MMA消除计算初始状态的开销

文档评论(0)

1亿VIP精品文档

相关文档