- 5
- 0
- 约5.85千字
- 约 23页
- 2025-04-29 发布于山东
- 举报
Kimi稳定⾼效的LLM基
础设施构建之道
⻩维啸
⽉之暗⾯系统⼯程师
01⼤规模训推集群的挑战
02全链路稳定性提升
⽬录03⾼效资源利⽤
04强化学习中的混合部署
01
⼤规模训推集群的挑战
⼤规模训推集群的挑战
⼤量的资源造成故障频次⽤户的开发机、⽂件存储线上推理呈现⾮常明显的强化学习中存在训推两种
变⾼,如何快速监测并恢存在⼤量的浪费情况,根潮汐效应,资源需要能动workload,需要平衡⼆者
复实验变得尤其重要据⽤量⾃动清理的策略未态的根据时间进⾏分配,的资源占⽤防⽌资源分配
必是最优的。需要建⽴⾼避免资源浪费不均衡
效的资源使⽤范式
机器频繁故障资源使⽤不够⾼效推理潮汐效应RL资源分配不均
02
全链路稳定性提升
Themoreyoustabilize,themoreyousave
Varys
P
PreCheck、周期巡检调⽤栈全链路监控
区分好机器、坏机器CPU侧监控py和torchC调⽤栈
根据任务查询机器异常事件GPU侧插⼊cudaevent监控
任务全⽣命周
CM
期监控
连续异步checkpoint智能⽇志分析
⽆时⽆刻不在async存ckpt在离线⽇志分析
ckpt⾼效管理和备份Tensorboard异常指标检测
L
PreCheck、周期巡检
PreCheck周期巡检、故障维护、⾃检恢复
•测试标准集合通讯性能情况•对机器GPU故障、⽹线故障、pcie降速
等等故障问题进⾏周期巡检
•测试GPUd2h等性能指标
•故障机器⽴即维护,等待排空,尝试重启
•使⽤训练中创建的group做group通讯
⾃愈,如故障未修复,⾃动化通知供应商
您可能关注的文档
- “谈故障色变”到有章可循:美图 SRE 故障应急与复盘实践.pdf
- (脱敏版)毕鸣一_大模型驱动的组织管理创新专题_从“人仰马翻”到“事半功倍”——大模型助力研发团队高效管理.pdf
- 01 段楠-Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望.pdf
- Agent 元年,关于知识管理的新思考.pdf
- Agentic RAG 的现在与未来.pdf
- AI 开发工具的过去现在和将来-施乔.pdf
- AI时代的新范式:如何构建AI产品.pdf
- Sunny duan-大模型安全挑战与实践:构建 AI 时代的安全防线.pdf
- uni-app双引擎助力开发者高效构建鸿蒙应用.pdf
- 菜鸟低代码创新实践:全栈转型与技术效能突破.pdf
最近下载
- 小学生作文评讲课件.pptx VIP
- 教育部《中小学生信息素养提升手册(2024年新版)》全文 .pdf VIP
- 知识点 4.3 209系列转向架(一)(二)课件讲解.pptx VIP
- 抹茶生产工艺介绍-第二步:蒸青和烘干(碾茶的制作).doc VIP
- 流产手术后促进子宫内膜修复临床实践指南(2025年版).pptx VIP
- 一株新型水稻纹枯病病菌的鉴定及病菌效应蛋白的功能研究.pdf
- 209T转向架组装作业指导书.pdf VIP
- AI:新一轮科技革命改变世界——新时代的底层逻辑系列之三.pdf VIP
- 《教育从爱开始》读书分享.pptx VIP
- 使用消化酶类药物治疗消化不良的专家共识意见.pptx
原创力文档

文档评论(0)