大模型推理加速的优化实践.pdfVIP

下载本文档

1
0
约2.83万字
约 36页
2026-03-02 发布于广东
举报

大模型推理加速的优化实践.pdf

张君

昇腾生态技术专家

硕士毕业于厦门大学通信与信息系统专业，毕业后一直就职于华为公司。曾

在MR，Neurocomputing有数篇论文发表。作为核心开发者参与AI框架

(昇思)的开发，并负责动态图的自动微分以及动静结合模块。目前主要参与

大模型推理加速在昇腾硬件上的相关开发和优化工作，致力于通过优化推理

框架、模型算法和算子加速库等层面，进一步提升大模型推理的性能。

演讲主题：

大模型推理加速的优化实践

昇腾生态技术专家张君

大模型推理的技术挑战

大模型推理加速技术发展现状

昇腾大模型推理框架MindIE-LLM加速实践

昇腾Transformer领域加速库ATB

总结与展望

PART1

大模型推理的技术挑战

挑战一：计算和内存需求高

2020-20212022202320242025

20-06GPT322-11ChatGPT23-03GPT-423-11GPT-4Turbo24H1GPT-5（预计）

OpenAI175B稠密175B稠密2万亿稀疏长序列+多模态10万亿稀疏+多模态

22-04PaLM23-05PaLM223-12Gemini

Google540B稠密340B稠密5万亿稀疏+原生多模态

23-02LLaMA23-07LLaMA224H1LLAMA3（预计）

LLaMa开源模型33B/65B稠密7B/13B/70B稠密万亿稀疏+多模态

预训练（50%）:千亿稠密+多模态

预训练（70%）：百亿/千亿稠密为主

国内大模型预训练（30%):万亿稀疏+多模态

微调（30%）：百亿稠密模型

微调（20%):百亿稠密模型

LLM大模型的发展趋势

超大模型参数、超长序列等是大模型的发展趋势，大计算和内

存需求高。

超大参数使得推理必须依赖多卡、多节点并行，严重受制于带宽。

庞大的参数规模，推理过程中需要大量的计算和内存资源。例如，

700亿参数量的LLaMA-2-70B模型进行推理需要至少6张RTX

3090TiGPU或2张NVIDIA的A100GPU

高端硬件的限制。

模型参数的曾速远快于硬件内存容量的提升速度。Transformer

大模型推理加速的优化实践.pdfVIP

大模型推理加速的优化实践.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档