千亿参数LLM的训练效率优化.pdfVIP

  • 0
  • 0
  • 约5.61千字
  • 约 35页
  • 2026-03-25 发布于浙江
  • 举报

千亿参数LLM的训练效率优化

演讲人:张力寰

零一万物/AIInfra分布式训练优化架构师

目录

CONTENTS

01模型训练硬件利用率影响因素02分布式训练效率提升

03FP8训练经验分享04MoE训练经验分享

05Goodput提升06总结与展望

模型训练硬件利用率影响因素

Llama3.1

•92页的技术报告

•最大405B的模型

•16KH100训练集群

•54天的预训练,466次任务中断

•MFU:40%左右

•Goodput:90%左右的有效训练时间占比

/pdf/2407.21783

MFU

•ModelFLOPSUtilization,模型算力利用率

•FLOPS(FloatingPointOperationsPer

文档评论(0)

1亿VIP精品文档

相关文档