- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
并行与分布计算全国重点实验室
非数据中心GPU上的大模型并
行训练
并行与分布计算全国重点实验室
博士研究生李笙维
DataFunSummit#2024
并行与分布计算全国重点实验室
01
研究背景
一、研究背景:大模型并行训练并行与分布计算全国重点实验室
•深度学习模型参数量呈爆炸式增长,对算力系统体系结构、系统软件提出了新的要求
•大规模并行与分布计算仍然是基础模型训练的主要手段,HPC与AI融合发展
•大规模训练的计算、通信、存储开销巨大,对并行模式和并行效率提出更高要求
基础模型参数量爆炸性增长并行训练基本方法
FedusW,ZophB,ShazeerN.SwitchtransformersScalingtotrillionparametermodelswithsimple
andefficientsparsity[J].TheJournalofMachineLearningResearch,2022,23(1)5232-5270.
一、研究背景:并行训练基本方法并行与分布计算全国重点实验室
•并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式
•数据并行(dataparallelism,DP)是将训练数据划分到多个设备,多个设备之间按照一定规则定期同
步模型参数实现并行训练的一种方式
•数据并行方式下每个设备计算时都会使用有完整的模型参数
•数据并行将数据切分为多份,不同份的数据由不同的设备进行处理
•优点
-并行程序逻辑比较容易理解
-单次迭代中模型训练的数据总量增加,使得
总的训练时间减少
•缺点
-为了保证收敛性,需要频繁的梯度同步通信
一、研究背景:并行训练基本方法并行与分布计算全国重点实验室
•并行训练基本方法主要分为数据并行,模型并行,混合并行等基本形式
•模型并行(modelparallelism,MP)训练是指将智能模型划分到多个计算单元的一种训练方式
•模型并行方式下每个设备上只有模型的一部分,张量并行、流水线并行均属于模型并行
•模型并行将数据切分为多份,每份数据需要所有设备进行处理
•优点
-降低了模型训练时对单卡的显存需求
•缺点
-较大的通信开销(常见于张量并行)
-较低的设备利用率(常见于流水线并行)
一、研究背景:并行训练基本方法并行与分布计算全国重点实验室
文档评论(0)