陈仲铭-大模型在超大规模集群上的性能提升实践V0.5.pdf

下载文档

4
0
约3.36万字
约 43页
2024-10-25 发布于山东
举报
版权申诉
保障服务

陈仲铭-大模型在超大规模集群上的性能提升实践V0.5.pdf

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型在超大规模集群

性能提升实践

演讲人：ZOMI酱

01大规模集群发展02集群组网优化

03多模态性能优化04小红书案例

大规模集群发展

我没有副标题哦

算力ScalingLaw：万卡集群成为新的军备门槛

•Meta基于1.6万H100集群训练LLAMA43.1，6KH100训练MovieGen

•XAI基于2.4万H100集群训练，自建10万H100集群训练Grok-3

训练完训练中建设中？？？

10万GB100

Grok-3LLaMA4？？？

OpenAI10万卡H10010万卡H100

10万卡H100

100K

1万卡H100集群成为标配

Grok-2

2.4万卡H100

Claude310万卡H100集群逐步成为主流

20K1.8万卡H100

LLaMA3

1.6万卡H100

10K

Nemotron340B

0.6万卡H100

202320242025

算力ScalingLaw：万卡集群成为新的军备门槛

•Meta基于1.6万H100集群训练LLAMA43.1，6KH100训练MovieGen

•XAI基于2.4万H100集群训练，自建10万H100集群训练Grok-3

集群规模利用率可用率

公司训练任务

（N）（MFU）（A)

MetaLLaMA31.6万H10040%99%

Nemotron

NV0.6万H10041.9%96%

340B

MFU、集群可用率是集群性能

LLaMA3性能=N*MFU*A

重要指标

您可能关注的文档

文档评论（0）

150****8957 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

陈仲铭-大模型在超大规模集群上的性能提升实践V0.5.pdf