- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
LLM训练推理加速
在阿里巴巴的实践
杨斯然/刘侃QCon2023全球软件开发大会上海站(公开)PPT
大语言模型训练和Megatron-LLaMA框架
•大语言模型训练的过程
•大语言模型训练的算法和问题
•大语言模型中的模型并行
QCon2023全球软件开发大会上海站(公开)PPT
•Megatron-LLaMA框架的计算和通信并行
•Megatron-LLaMA框架的3D并行调优
•Megatron-LLaMA框架应用到LLaMA模型中
•小结
大语言模型的应用
QCon2023全球软件开发大会上海站(公开)PPT
大语言模型:训练过程
预训练有监督微调强化学习
QCon2023全球软件开发大会上海站(公开)PPT
文本标注数据人工反馈
数万亿token数万prompt/response
上百万GPU小时
大语言模型训练:算法和问题
样本样本
模型GPUGPU
3.模型更新1.梯度计算QCon2023全球软件开发大会上海站(公开)PPT
梯度梯度
2.梯度同步DeepSpeed:ZeRO优化器
1.优化状态切分到数据并行的各个rank上
需求限制
13B模型:156GB2.部分通信和梯度计算并行
模型存储显存容量:80GB
65B模型:780GB3.激活重算,节省梯度计算过程显存
13B模型:52GB
梯度同步网络带宽:100GB/s
65B模型:260GB
大语言模型训练:模型并行
QCon2023全球软件开发大会上海站(公开)PPT
Megatron-LM:3D模型并行
参考文献:1.MLP层和Attention层切分到多张卡上,通常用NVLink互联
1.Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism
2.EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM2.模型的分为多个Stage,切分到多台机器上3.分布式优化器
Megatron-LLaMA框架:计算通信并行
FWBWFWBWFWBWFWBWReduceAdamAllgather
文档评论(0)