- 0
- 0
- 约8.44千字
- 约 39页
- 2026-03-26 发布于浙江
- 举报
大模型推理的显存优化探索演讲人:赵军平蚂蚁集团
大模型推理的显存优化探索
演讲人:赵军平
蚂蚁集团/异构计算与推理负责人
显存需求与挑战化1:virtualTensor优化KVcache和attn0优1kernel
显存需求与挑战
化1:virtualTensor优化KVcache和attn
0优1
kernel
目录
02
优化2:LayerKV优化TTFT
03
围绕显存的更多优化探索
04
总结
05
自我介绍赵军平,蚂蚁异构计算与推理负责人中国计算机协会CCF
自我介绍
赵军平,蚂蚁异构计算与推理负责人
中国计算机协会CCFHPC、存储专委委员,~200中/美技术专利
异构加速,虚拟化,K8S,推理优化,文件系统,企业级存储-保护等
“数据密集型应用系统设计”译者
显存需求与挑战
显存需求与挑战
LLM推理:显存需求Llam
LLM推理:显存需求
Llama-65b,FP16
LLM推理:硬件发展显存容量、访存带宽(特别是推理小batch场景)?单卡算力vs
LLM推理:硬件发展
显存容量、访存带宽(特别是推理小batch场景)
?
单卡算力vs.访存带宽发展
模型参数量vs.单卡显存容量
显存管理:从cudaMalloc到CUDAVMMAPI2层指针与动态remapp
显存管理:从cudaMalloc到CUDAVMMAPI
您可能关注的文档
- 淘天-范导-一分钟一千万:天猫双十一背后的互动游戏引擎.docx
- 模拟游戏消亡史.docx
- 3-字节跳动安全运营实践及攻防实战.docx
- 58沙龙-02-《零信任在中通黑灰产对抗的实践》-中通快递.docx
- BeyondNaiveRAG-Pierre信息安全资料信息安全资料.docx
- 孙艳庆-智能新篇章有道子曰大模型的创新与开源探索.docx
- 苗永昌-字节跳动 Kubernetes 集群2w+节点性能优化实战.docx
- Gartner:为2025制定可付诸实践的IT战略规划.docx
- 9.21槿松-寒退之基于大模型的生成式检索.docx
- 58沙龙-06-《58集团代码分析技术实践》-58.docx
原创力文档

文档评论(0)