- 1
- 0
- 约2.83万字
- 约 36页
- 2026-03-02 发布于广东
- 举报
张君
昇腾生态技术专家
硕士毕业于厦门大学通信与信息系统专业,毕业后一直就职于华为公司。曾
在MR,Neurocomputing有数篇论文发表。作为核心开发者参与AI框架
(昇思)的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与
大模型推理加速在昇腾硬件上的相关开发和优化工作,致力于通过优化推理
框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。
演讲主题:
大模型推理加速的优化实践
大模型推理加速的优化实践
昇腾生态技术专家张君
大模型推理的技术挑战
大模型推理加速技术发展现状
昇腾大模型推理框架MindIE-LLM加速实践
昇腾Transformer领域加速库ATB
总结与展望
PART1
大模型推理的技术挑战
挑战一:计算和内存需求高
2020-20212022202320242025
20-06GPT322-11ChatGPT23-03GPT-423-11GPT-4Turbo24H1GPT-5(预计)
OpenAI175B稠密175B稠密2万亿稀疏长序列+多模态10万亿稀疏+多模态
22-04PaLM23-05PaLM223-12Gemini
Google540B稠密340B稠密5万亿稀疏+原生多模态
23-02LLaMA23-07LLaMA224H1LLAMA3(预计)
LLaMa开源模型33B/65B稠密7B/13B/70B稠密万亿稀疏+多模态
预训练(50%):千亿稠密+多模态
预训练(70%):百亿/千亿稠密为主
国内大模型预训练(30%):万亿稀疏+多模态
微调(30%):百亿稠密模型
微调(20%):百亿稠密模型
LLM大模型的发展趋势
超大模型参数、超长序列等是大模型的发展趋势,大计算和内
存需求高。
超大参数使得推理必须依赖多卡、多节点并行,严重受制于带宽。
庞大的参数规模,推理过程中需要大量的计算和内存资源。例如,
700亿参数量的LLaMA-2-70B模型进行推理需要至少6张RTX
3090TiGPU或2张NVIDIA的A100GPU
高端硬件的限制。
模型参数的曾速远快于硬件内存容量的提升速度。Transformer
模型中的参数数量(红色)呈现出2年240倍的超指数增长,而
原创力文档

文档评论(0)