DataFunSummit非数据中心GPU上的大模型并行训练.docx

下载文档

0
0
约1.13万字
约 67页
2024-12-19 发布于北京
举报
版权申诉
保障服务

DataFunSummit非数据中心GPU上的大模型并行训练.docx

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

并行与分布计算全国重点实验室

非数据中心GPU上的大模型并

行训练

并行与分布计算全国重点实验室博士研究生李笙维

DataFunSummit#2024

并行与分布计算全国重点实验室

研究背景

一、研究背景:大模型并行训练

并行与分布计算全国重点实验室

?深度学习模型参数量呈爆炸式增长，对算力系统体系结构、系统软件提出了新的要求

?大规模并行与分布计算仍然是基础模型训练的主要手段，HPC与AI融合发展

?大规模训练的计算、通信、存储开销巨大，对并行模式和并行效率提出更高要求

基础模型参数量爆炸性增长并行训练基本方法

Fed

FedusW,ZophB,ShazeerN.Switchtransformers:Scalingtotrillionparametermodelswithsimpleandefficientsparsity[J].TheJournalofMachineLearningResearch,2022,23(1):5232-5270.

一、研究背景:并行训练基本方法

并行与分布计算全国重点实验室

?并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

?数据并行(dataparallelism,DP)是将训练数据划分到多个设备,多个设备之间按照一定规则定期同步模型参数实现并行训练的一种方式

?数据并行方式下每个设备计算时都会使用有完整的模型参数

?数据并行将数据切分为多份，不同份的数据由不同的设备进行处理

?优点

-并行程序逻辑比较容易理解

-单次迭代中模型训练的数据总量增加，使得总的训练时间减少

?缺点

-为了保证收敛性，需要频繁的梯度同步通信

一、研究背景:并行训练基本方法

并行与分布计算全国重点实验室

?并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

?模型并行(modelparallelism,MP)训练是指将智能模型划分到多个计算单元的一种训练方式

?模型并行方式下每个设备上只有模型的一部分，张量并行、流水线并行均属于模型并行

?模型并行将数据切分为多份，每份数据需要所有设备进行处理

?优点

-降低了模型训练时对单卡的显存需求?缺点

-较大的通信开销（常见于张量并行）

-较低的设备利用率（常见于流水线并行）

一、研究背景:并行训练基本方法

并行与分布计算全国重点实验室

?并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

?张量并行(tensorparallelism,TP)张量并行是将深度学习模型中的参数切分到不同的设备上，每个设备只负责计算部分参数，从而实现并行计算。

?模型的参数分配到不同的设备上，每个设备只负责计算部分参数。

?Transformer中将嵌入层和多头自注意力机制的部分参数切分到不同的设备上进行计算。

Shoeybi

ShoeybiM,PatwaryM,PuriR,etal.Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelism[J].arXivpreprintarXiv:1909.08053,2019.

一、研究背景:并行训练基本方法

并行与分布计算全国重点实验室

?并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式

?流水线并行(pipelineparallelism,PP)将模型垂直分割成多个部分（称为“流水级”），每个流水级部署在一个或多个GPU上，数据在GPU之间按流水线方式流动。

?需要对流水线的操作进行调度,确保数据在各流水级间顺畅流动。

?因为数据依赖关系,设备计算会出现空闲(idle),称为流水线气泡(bubble),影响整体硬件利用效率。

HuangY,ChengY,

HuangY,ChengY,BapnaA,etal.Gpipe:Efficienttrainingofgiantneuralnetworksusingpipelineparallelism[J].Advance

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

内容提供者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DataFunSummit非数据中心GPU上的大模型并行训练.docx