机器学习 _ LLM 并行方法(一).pdfVIP

  • 3
  • 0
  • 约9.14千字
  • 约 13页
  • 2026-04-27 发布于湖北
  • 举报

机器学习|LLM并行方法(一)

1数据并行DataParallelism

1.数据并行(DataParallelism,DP):将数据切分给不同GPU,不同GPU并行处理不同输

入数据。

2.张量并行(TensorParallelism,TP):将单个参数矩阵切分到多卡,通过协作完成层内计

算。

1.1概念

在单卡训练时,通过指定batch_size,我们可以充分利用GPU的算力,实现多条不同数据并

行处理,得到梯度均值后进行优化。数据并行(DP)便将这个流程扩展到了多GPU上,每个

GPU同时处理不同的数据,计算完成后将所有GPU的梯度求均值,对参数进行优化。

DP的示意图如下:

P.s.图中看起来似乎每个GPU处理一条数据,实际上得理解为每个GPU处理一批数据,

也就是若batch_size_per_gpu=16,那么3卡DP实际的batch_size=48(忽略梯度累

积).

1.2方法

1.2.1朴素DP/DDP

要实现DP,最朴素的流程便是:

1.将不同的数据给到所有GPU进行前向传播,得到每个GPU的损失值;

2.每个GPU对损

文档评论(0)

1亿VIP精品文档

相关文档