- 2
- 0
- 约4.92万字
- 约 33页
- 2026-03-02 发布于广东
- 举报
陈龙
中科加禾CTO
曾于中国科学院计算技术研究所获得博士学位,研究方向包括编译技术、并行计算及异构计
算。陈龙博士多年从事面向国产芯片的编程与编译技术研发工作,曾任华为编译器与编程语
言实验室架构师,主导过多项国产化芯片的编译器产品开发工作。技术涵盖高性能服务器、
无线通信、AI加速芯片等多个领域,面向市场获广泛应用。基于多年在芯片基础软件建设
上的经验积累,于2023年联合创办了中科加禾科技有限公司,致力于解决国产AI算力落地
应用所面临的困难。中科加禾通过全系统优化、编译技术及工具加持,提供大模型推理及微
调系统工具,为国产AI算力加速落地提供帮助。
演讲主题:
cutlass跨平台编译优化实践分享
CUTLASS跨平台编译与优化
陈龙-中科加禾
矩阵乘及CUTLASS简要介绍
CUTLASS在A架构上的编译
CUTLASS在A架构上的优化
矩阵乘及CUTLASS简要介绍
CUTLASS在A架构上的编译
CUTLASS在A架构上的优化
矩阵乘的重要性
•矩阵乘是Transformer模型架构的核心计算
=×,
,
)
=
()()()
=ℎ∗
AttentionIsAllYouNeed
矩阵乘优化的难点
情况复杂多样,开发和优化难度较大
•不同的矩阵形状和计算规模•不同的硬件架构和特性
方形/扁长型/瘦高型有无TensorCore
小规模/大规模矩阵相乘有无异步数据传输
计算瓶颈/访存瓶颈…
•不同的数据类型•不同的算法与延申
FP64/FP32/FP16/BF16/INT8/FP8...Batched/SplitK/Back2back...
InputType/OutputType/AccumTypeGemm/Convolution
•不同的数据布局•算子融合的需求
矩阵相乘:=×
NN/NT/TN/TTGemm+Relu
NCHW/NHWC…
CUTLASS
CUTLASS是基于现代C++实现的、面向GPU的矩阵计算加速库
良好的抽象、丰富的优化,开放开源
•模板化CUDAC++编程组件•模板化以容许较大的设计空间
Block-wide/Warp-wide/Thread-wideKernel在布局和问题规模方面的定制
混合精度的运算和存储
•数据移动和计算原语
Kernel融合
Shape
TileIterator/Fragment•常量化
Gemm/MMA消除计算初始状态的开销
原创力文档

文档评论(0)