- 3
- 0
- 约9.14千字
- 约 13页
- 2026-04-27 发布于湖北
- 举报
机器学习|LLM并行方法(一)
1数据并行DataParallelism
1.数据并行(DataParallelism,DP):将数据切分给不同GPU,不同GPU并行处理不同输
入数据。
2.张量并行(TensorParallelism,TP):将单个参数矩阵切分到多卡,通过协作完成层内计
算。
1.1概念
在单卡训练时,通过指定batch_size,我们可以充分利用GPU的算力,实现多条不同数据并
行处理,得到梯度均值后进行优化。数据并行(DP)便将这个流程扩展到了多GPU上,每个
GPU同时处理不同的数据,计算完成后将所有GPU的梯度求均值,对参数进行优化。
DP的示意图如下:
P.s.图中看起来似乎每个GPU处理一条数据,实际上得理解为每个GPU处理一批数据,
也就是若batch_size_per_gpu=16,那么3卡DP实际的batch_size=48(忽略梯度累
积).
1.2方法
1.2.1朴素DP/DDP
要实现DP,最朴素的流程便是:
1.将不同的数据给到所有GPU进行前向传播,得到每个GPU的损失值;
2.每个GPU对损
您可能关注的文档
最近下载
- 通用管理知识概论(总结.doc VIP
- 通用管理知识概论总结.doc VIP
- 广东省深圳市宝安中学2023年数学高二第二学期期末预测试题含解析.doc VIP
- 青岛市中考数学-动点题汇编.docx VIP
- 03R411-1建筑工程 图集 .docx VIP
- TSG 08-2026《特种设备使用管理规则》深度解读.pptx VIP
- 礼行天下 仪见倾心(哈尔滨商业大学) 超星尔雅学习通章节测试答案.docx VIP
- 数学中考压轴题分类精选70道(含答案)解析.doc
- 惠州出租汽车驾驶员从业资格考试区域性题库―2018.PDF VIP
- 浅析西门子MAXUM II 在线色谱电子传感器故障及处理办法.pdf VIP
原创力文档

文档评论(0)