Kimi 稳定高效的 LLM 基础设施构建之道.pdfVIP

  • 5
  • 0
  • 约5.85千字
  • 约 23页
  • 2025-04-29 发布于山东
  • 举报

Kimi 稳定高效的 LLM 基础设施构建之道.pdf

Kimi稳定⾼效的LLM基

础设施构建之道

⻩维啸

⽉之暗⾯系统⼯程师

01⼤规模训推集群的挑战

02全链路稳定性提升

⽬录03⾼效资源利⽤

04强化学习中的混合部署

01

⼤规模训推集群的挑战

⼤规模训推集群的挑战

⼤量的资源造成故障频次⽤户的开发机、⽂件存储线上推理呈现⾮常明显的强化学习中存在训推两种

变⾼,如何快速监测并恢存在⼤量的浪费情况,根潮汐效应,资源需要能动workload,需要平衡⼆者

复实验变得尤其重要据⽤量⾃动清理的策略未态的根据时间进⾏分配,的资源占⽤防⽌资源分配

必是最优的。需要建⽴⾼避免资源浪费不均衡

效的资源使⽤范式

机器频繁故障资源使⽤不够⾼效推理潮汐效应RL资源分配不均

02

全链路稳定性提升

Themoreyoustabilize,themoreyousave

Varys

P

PreCheck、周期巡检调⽤栈全链路监控

区分好机器、坏机器CPU侧监控py和torchC调⽤栈

根据任务查询机器异常事件GPU侧插⼊cudaevent监控

任务全⽣命周

CM

期监控

连续异步checkpoint智能⽇志分析

⽆时⽆刻不在async存ckpt在离线⽇志分析

ckpt⾼效管理和备份Tensorboard异常指标检测

L

PreCheck、周期巡检

PreCheck周期巡检、故障维护、⾃检恢复

•测试标准集合通讯性能情况•对机器GPU故障、⽹线故障、pcie降速

等等故障问题进⾏周期巡检

•测试GPUd2h等性能指标

•故障机器⽴即维护,等待排空,尝试重启

•使⽤训练中创建的group做group通讯

⾃愈,如故障未修复,⾃动化通知供应商

文档评论(0)

1亿VIP精品文档

相关文档