LLM 训练推理加速在阿里巴巴的实践.pdf

下载文档

1
0
约7.52千字
约 21页
2024-04-28 发布于广西
举报
版权申诉
保障服务

LLM 训练推理加速在阿里巴巴的实践.pdf

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LLM训练推理加速

在阿里巴巴的实践

杨斯然/刘侃QCon2023全球软件开发大会上海站（公开）PPT

大语言模型训练和Megatron-LLaMA框架

•大语言模型训练的过程

•大语言模型训练的算法和问题

•大语言模型中的模型并行

QCon2023全球软件开发大会上海站（公开）PPT

•Megatron-LLaMA框架的计算和通信并行

•Megatron-LLaMA框架的3D并行调优

•Megatron-LLaMA框架应用到LLaMA模型中

•小结

大语言模型的应用

QCon2023全球软件开发大会上海站（公开）PPT

大语言模型：训练过程

预训练有监督微调强化学习

QCon2023全球软件开发大会上海站（公开）PPT

文本标注数据人工反馈

数万亿token数万prompt/response

上百万GPU小时

大语言模型训练：算法和问题

样本样本

模型GPUGPU

3.模型更新1.梯度计算QCon2023全球软件开发大会上海站（公开）PPT

梯度梯度

2.梯度同步DeepSpeed：ZeRO优化器

1.优化状态切分到数据并行的各个rank上

需求限制

13B模型：156GB2.部分通信和梯度计算并行

模型存储显存容量：80GB

65B模型：780GB3.激活重算，节省梯度计算过程显存

13B模型：52GB

梯度同步网络带宽：100GB/s

65B模型：260GB

大语言模型训练：模型并行

QCon2023全球软件开发大会上海站（公开）PPT

Megatron-LM：3D模型并行

参考文献：1.MLP层和Attention层切分到多张卡上，通常用NVLink互联

1.Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism

2.EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM2.模型的分为多个Stage，切分到多台机器上3.分布式优化器

Megatron-LLaMA框架：计算通信并行

FWBWFWBWFWBWFWBWReduceAdamAllgather

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

LLM 训练推理加速在阿里巴巴的实践.pdf