- 0
- 0
- 约4.45千字
- 约 35页
- 2026-03-25 发布于浙江
- 举报
千亿参数LLM的训练效率优化
千亿参数LLM的训练效率优化
演讲人:张力寰
零一万物/AIInfra分布式训练优化架构师
CONT目E录NTS0102模型训练硬件利用率影响因素分布式训练效率提升0304FP8训练经验分享MoE训练经验分享0506Goodpu
CONT目E录NTS
01
02
模型训练硬件利用率影响因素
分布式训练效率提升
03
04
FP8训练经验分享
MoE训练经验分享
05
06
Goodput提升
总结与展望
模型训练硬件利用率影响因素
模型训练硬件利用率影响因素
Llama3.192页的技术报告最大405B的模型16KH100训练集群54天的预训练,
Llama3.1
92页的技术报告
最大405B的模型
16KH100训练集群
54天的预训练,466次任务中断
MFU:40%左右
Goodput:90%左右的有效训练时间占比
/pdf/2407.21783
MFUModelFLOPSUt
MFU
ModelFLOPSUtilization,模型算力利用率
FLOPS(FloatingPointOperationsPerSecond)
?????怀??????
??=????????????????????
/pdf/2407.21783
您可能关注的文档
- 敖襄桥-AIGC 技术在统一运维领域的应用探索.docx
- 爱分析:2024数据库厂商全景报告.docx
- 06构建大型集团企业“云边端一体化管控操全流程”信息安全新体系.docx
- 肖彬-大模型推理框架升级之路.docx
- 使用IDA Frida绕过IOS越狱检测.docx
- 自动反馈使用自定义评估模型扩展人工反馈.docx
- 利用TimestreamforInfluxDB高效存储和分析海量时序数据.docx
- 阿里云 ClickHouse Serverless 实现 _卫寻_阿里云.docx
- 面向数据分析领域的Agent思考和探索eason_屿你数智AI负责人.docx
- 联通软件研究院-乔柏-数字原生体系下的企业架构治理:中国联通系统架构数字化管理最佳实践.docx
原创力文档

文档评论(0)