赵军平-大模型推理显存优化.docxVIP

  • 0
  • 0
  • 约8.44千字
  • 约 39页
  • 2026-03-26 发布于浙江
  • 举报

大模型推理的显存优化探索演讲人:赵军平蚂蚁集团

大模型推理的显存优化探索

演讲人:赵军平

蚂蚁集团/异构计算与推理负责人

显存需求与挑战化1:virtualTensor优化KVcache和attn0优1kernel

显存需求与挑战

化1:virtualTensor优化KVcache和attn

0优1

kernel

目录

02

优化2:LayerKV优化TTFT

03

围绕显存的更多优化探索

04

总结

05

自我介绍赵军平,蚂蚁异构计算与推理负责人中国计算机协会CCF

自我介绍

赵军平,蚂蚁异构计算与推理负责人

中国计算机协会CCFHPC、存储专委委员,~200中/美技术专利

异构加速,虚拟化,K8S,推理优化,文件系统,企业级存储-保护等

“数据密集型应用系统设计”译者

显存需求与挑战

显存需求与挑战

LLM推理:显存需求Llam

LLM推理:显存需求

Llama-65b,FP16

LLM推理:硬件发展显存容量、访存带宽(特别是推理小batch场景)?单卡算力vs

LLM推理:硬件发展

显存容量、访存带宽(特别是推理小batch场景)

?

单卡算力vs.访存带宽发展

模型参数量vs.单卡显存容量

显存管理:从cudaMalloc到CUDAVMMAPI2层指针与动态remapp

显存管理:从cudaMalloc到CUDAVMMAPI

文档评论(0)

1亿VIP精品文档

相关文档