千亿参数LLM的训练效率优化.docxVIP

  • 0
  • 0
  • 约4.45千字
  • 约 35页
  • 2026-03-25 发布于浙江
  • 举报

千亿参数LLM的训练效率优化

千亿参数LLM的训练效率优化

演讲人:张力寰

零一万物/AIInfra分布式训练优化架构师

CONT目E录NTS0102模型训练硬件利用率影响因素分布式训练效率提升0304FP8训练经验分享MoE训练经验分享0506Goodpu

CONT目E录NTS

01

02

模型训练硬件利用率影响因素

分布式训练效率提升

03

04

FP8训练经验分享

MoE训练经验分享

05

06

Goodput提升

总结与展望

模型训练硬件利用率影响因素

模型训练硬件利用率影响因素

Llama3.192页的技术报告最大405B的模型16KH100训练集群54天的预训练,

Llama3.1

92页的技术报告

最大405B的模型

16KH100训练集群

54天的预训练,466次任务中断

MFU:40%左右

Goodput:90%左右的有效训练时间占比

/pdf/2407.21783

MFUModelFLOPSUt

MFU

ModelFLOPSUtilization,模型算力利用率

FLOPS(FloatingPointOperationsPerSecond)

?????怀??????

??=????????????????????

/pdf/2407.21783

文档评论(0)

1亿VIP精品文档

相关文档