大模型训练与优化工程师岗位说明书(2026年).docxVIP

  • 1
  • 0
  • 约2.04千字
  • 约 2页
  • 2026-05-08 发布于广东
  • 举报

大模型训练与优化工程师岗位说明书(2026年).docx

大模型训练与优化工程师岗位说明书(2026年)

岗位名称

大模型训练与优化工程师/LLM训练系统工程师

岗位编号

所在部门

AI工程平台部/大模型基础团队/高性能计算部

岗位定员

直接上级

训练平台负责人/大模型技术总监/首席架构师

工资等级

直接下级

薪酬类型

所辖人员

岗位分析日期

岗位描述:

负责设计、构建、优化与保障支撑千亿乃至万亿参数大模型高效、稳定训练的全栈系统与技术设施。核心价值在于深入融合分布式系统、高性能计算与深度学习原理,解决超大规模训练在集群调度、通信效率、内存优化、故障容错等方面的极端工程挑战,实现模型训练效率、稳定性与成本效益的极致优化。

工作职责:

1.分布式训练系统架构与开发:主导设计、开发与深度定制下一代大规模分布式训练框架与系统。精通ZeRO、FSDP、Tensor/Pipeline/ExpertParallelism等并行范式,并针对公司模型架构与集群特点进行创新性优化与集成,实现集群算力的最大化利用。

2.极致性能分析与调优:建立系统化的性能剖析与优化体系。从芯片、单卡、多机多卡到整个集群,逐层分析性能瓶颈,在计算、通信、I/O、内存等维度进行深度优化,包括但不限于:算子融合、梯度累积优化、通信-计算重叠、高效检查点、激活重计算等,持续提升训练吞吐量(TFLOPS/GPU)。

3.训练稳定性保障与自动修复:构建高鲁棒性的训练保障系统。监控与诊断

文档评论(0)

1亿VIP精品文档

相关文档