- 0
- 0
- 约8.66千字
- 约 10页
- 2026-04-27 发布于湖北
- 举报
机器学习|LLM并行方法(二)
1.上下文并行(ContextParallelism,CP):旨在突破超长序列带来的注意力计算与显存平方
级增长瓶颈。
2.流水线并行(PipelineParallelism,PP):拥有极小的跨机通信开销,是突破单节点显存上
限、实现多机大模型训练的核心基石。
3.专家并行(ExpertParallelism,EP):专为混合专家模型(MoE)量身定制,实现多专家的
负载与算力均衡。
1上下文并行ContextParallelism
1.1概念
在上一部分的文章中介绍了数据并行(DataParallelism)和张量并行(TensorParallelism),它
们都可以从不同层面上加速模型训练、降低显存开销。但随着模型的上下文长度越来越长,从
4K一直增长到128K,伴随着的就是平方增长的自注意力计算和激活值储存。平方增长的速度
是非常恐怖的,数据并行和张量并行完全是没法应付的,因此上下文并行(Context
Parallelism)应运而生。
上下文并行针对的就是LLM的自注意力过程,它将模型的自注意力计算以及注意力激活值的
储存分担到多个GPU上,降低单卡显存开销,让超长序列模型的训
您可能关注的文档
最近下载
- 术后伤口愈合不良的护理.pptx VIP
- 2026 二建公路速记口诀(新手_进阶_职场适用·考试冲刺避坑指南).docx VIP
- 苏TZG 01-2026 江苏省预应力混凝土空心方桩图则.docx
- 2014年一师一优课、一课一名师活动内蒙古自治区优.PDF VIP
- 2025年初中化学教师招聘试题.doc VIP
- 2026广西南宁市良庆区良庆镇人民政府招聘工作人员21人笔试参考试题及答案解析.docx VIP
- 海事管理考试题库.doc VIP
- 2025年农信社招聘考试通用能力测试(EPI)专项训练卷(言语理解).docx VIP
- 萬科第五城一期一標段 項目.DOC VIP
- 初中化学教师业务考试试题及答案.pdf VIP
原创力文档

文档评论(0)