大模型推理加速的优化实践.pdfVIP

  • 1
  • 0
  • 约2.83万字
  • 约 36页
  • 2026-03-02 发布于广东
  • 举报

张君

昇腾生态技术专家

硕士毕业于厦门大学通信与信息系统专业,毕业后一直就职于华为公司。曾

在MR,Neurocomputing有数篇论文发表。作为核心开发者参与AI框架

(昇思)的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与

大模型推理加速在昇腾硬件上的相关开发和优化工作,致力于通过优化推理

框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。

演讲主题:

大模型推理加速的优化实践

大模型推理加速的优化实践

昇腾生态技术专家张君

大模型推理的技术挑战

大模型推理加速技术发展现状

昇腾大模型推理框架MindIE-LLM加速实践

昇腾Transformer领域加速库ATB

总结与展望

PART1

大模型推理的技术挑战

挑战一:计算和内存需求高

2020-20212022202320242025

20-06GPT322-11ChatGPT23-03GPT-423-11GPT-4Turbo24H1GPT-5(预计)

OpenAI175B稠密175B稠密2万亿稀疏长序列+多模态10万亿稀疏+多模态

22-04PaLM23-05PaLM223-12Gemini

Google540B稠密340B稠密5万亿稀疏+原生多模态

23-02LLaMA23-07LLaMA224H1LLAMA3(预计)

LLaMa开源模型33B/65B稠密7B/13B/70B稠密万亿稀疏+多模态

预训练(50%):千亿稠密+多模态

预训练(70%):百亿/千亿稠密为主

国内大模型预训练(30%):万亿稀疏+多模态

微调(30%):百亿稠密模型

微调(20%):百亿稠密模型

LLM大模型的发展趋势

超大模型参数、超长序列等是大模型的发展趋势,大计算和内

存需求高。

超大参数使得推理必须依赖多卡、多节点并行,严重受制于带宽。

庞大的参数规模,推理过程中需要大量的计算和内存资源。例如,

700亿参数量的LLaMA-2-70B模型进行推理需要至少6张RTX

3090TiGPU或2张NVIDIA的A100GPU

高端硬件的限制。

模型参数的曾速远快于硬件内存容量的提升速度。Transformer

模型中的参数数量(红色)呈现出2年240倍的超指数增长,而

文档评论(0)

1亿VIP精品文档

相关文档