- 1
- 0
- 约2.04千字
- 约 2页
- 2026-05-08 发布于广东
- 举报
大模型训练与优化工程师岗位说明书(2026年)
岗位名称
大模型训练与优化工程师/LLM训练系统工程师
岗位编号
所在部门
AI工程平台部/大模型基础团队/高性能计算部
岗位定员
直接上级
训练平台负责人/大模型技术总监/首席架构师
工资等级
直接下级
薪酬类型
所辖人员
岗位分析日期
岗位描述:
负责设计、构建、优化与保障支撑千亿乃至万亿参数大模型高效、稳定训练的全栈系统与技术设施。核心价值在于深入融合分布式系统、高性能计算与深度学习原理,解决超大规模训练在集群调度、通信效率、内存优化、故障容错等方面的极端工程挑战,实现模型训练效率、稳定性与成本效益的极致优化。
工作职责:
1.分布式训练系统架构与开发:主导设计、开发与深度定制下一代大规模分布式训练框架与系统。精通ZeRO、FSDP、Tensor/Pipeline/ExpertParallelism等并行范式,并针对公司模型架构与集群特点进行创新性优化与集成,实现集群算力的最大化利用。
2.极致性能分析与调优:建立系统化的性能剖析与优化体系。从芯片、单卡、多机多卡到整个集群,逐层分析性能瓶颈,在计算、通信、I/O、内存等维度进行深度优化,包括但不限于:算子融合、梯度累积优化、通信-计算重叠、高效检查点、激活重计算等,持续提升训练吞吐量(TFLOPS/GPU)。
3.训练稳定性保障与自动修复:构建高鲁棒性的训练保障系统。监控与诊断
您可能关注的文档
最近下载
- 2005年临床执业医师考试真题及答案-标记出处版(第二单元).docx VIP
- 2025电动自行车充停充换场所设计技术细则.docx
- 山东省烟台市牟平区2024-2025学年八年级(下)期末物理试卷(五四学制)(含解析).pdf VIP
- 《护理学导论(高职案例版)》第五章:护理的支持性理论[精品].ppt VIP
- 铁路隧道深埋中心排水管施工方案.docx VIP
- 《飞行原理》教学课件合集.pptx
- 2005年临床执业医师考试真题及答案-标记出处版(第一单元).docx VIP
- 不锈钢管进场检验操作指导书.docx VIP
- jd160a牵引电机使用维护说明书.pdf VIP
- 《硼中子俘获治疗设备质量控制检测规范》.pdf VIP
原创力文档

文档评论(0)