机器学习 _ LLM 并行方法(二).pdfVIP

  • 0
  • 0
  • 约8.66千字
  • 约 10页
  • 2026-04-27 发布于湖北
  • 举报

机器学习|LLM并行方法(二)

1.上下文并行(ContextParallelism,CP):旨在突破超长序列带来的注意力计算与显存平方

级增长瓶颈。

2.流水线并行(PipelineParallelism,PP):拥有极小的跨机通信开销,是突破单节点显存上

限、实现多机大模型训练的核心基石。

3.专家并行(ExpertParallelism,EP):专为混合专家模型(MoE)量身定制,实现多专家的

负载与算力均衡。

1上下文并行ContextParallelism

1.1概念

在上一部分的文章中介绍了数据并行(DataParallelism)和张量并行(TensorParallelism),它

们都可以从不同层面上加速模型训练、降低显存开销。但随着模型的上下文长度越来越长,从

4K一直增长到128K,伴随着的就是平方增长的自注意力计算和激活值储存。平方增长的速度

是非常恐怖的,数据并行和张量并行完全是没法应付的,因此上下文并行(Context

Parallelism)应运而生。

上下文并行针对的就是LLM的自注意力过程,它将模型的自注意力计算以及注意力激活值的

储存分担到多个GPU上,降低单卡显存开销,让超长序列模型的训

文档评论(0)

1亿VIP精品文档

相关文档