陈仲铭-大模型在超大规模集群上的性能提升实践V0.5.pdf

陈仲铭-大模型在超大规模集群上的性能提升实践V0.5.pdf

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型在超大规模集群

性能提升实践

演讲人:ZOMI酱

目录

01大规模集群发展02集群组网优化

03多模态性能优化04小红书案例

01

大规模集群发展

我没有副标题哦

算力ScalingLaw:万卡集群成为新的军备门槛

•Meta基于1.6万H100集群训练LLAMA43.1,6KH100训练MovieGen

•XAI基于2.4万H100集群训练,自建10万H100集群训练Grok-3

训练完训练中建设中???

10万GB100

Grok-3LLaMA4???

OpenAI10万卡H10010万卡H100

10万卡H100

100K

1万卡H100集群成为标配

Grok-2

2.4万卡H100

Claude310万卡H100集群逐步成为主流

20K1.8万卡H100

LLaMA3

1.6万卡H100

10K

Nemotron340B

0.6万卡H100

5K

202320242025

算力ScalingLaw:万卡集群成为新的军备门槛

•Meta基于1.6万H100集群训练LLAMA43.1,6KH100训练MovieGen

•XAI基于2.4万H100集群训练,自建10万H100集群训练Grok-3

集群规模利用率可用率

公司训练任务

(N)(MFU)(A)

MetaLLaMA31.6万H10040%99%

Nemotron

NV0.6万H10041.9%96%

340B

MFU、集群可用率是集群性能

LLaMA3性能=N*MFU*A

重要指标

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档