大模型推理工程师岗位说明书(2026年).docxVIP

  • 1
  • 0
  • 约1.99千字
  • 约 2页
  • 2026-05-08 发布于广东
  • 举报

大模型推理工程师岗位说明书(2026年).docx

大模型推理工程师岗位说明书(2026年)

岗位名称

大模型推理工程师/LLM推理优化专家

岗位编号

所在部门

AI工程平台部/大模型基础团队/算法工程化部

岗位定员

直接上级

推理平台负责人/大模型技术总监

工资等级

直接下级

薪酬类型

所辖人员

岗位分析日期

岗位描述:

负责从模型压缩、推理引擎优化、服务化部署到集群调度的全链路技术攻关,实现模型推理在延迟、吞吐、成本与稳定性上的极致优化。核心价值在于将训练完成的巨型模型,转化为在云、边、端各类硬件上均能高效、经济、可靠运行的在线服务。

工作职责:

1.模型压缩与量化部署:主导并实施面向生产环境的模型极致压缩与量化方案,包括但不限于权重量化(INT8/INT4/FP8)、知识蒸馏、结构化/非结构化剪枝、MoE模型稀疏化。确保在精度损失可控的前提下,最大化降低模型存储与计算需求,为高效推理奠定基础。

2.推理引擎深度优化:深度定制与优化TensorRT-LLM、vLLM、TGI、DeepSpeedInference等主流推理引擎。在算子融合、内核优化、内存布局、KVCache管理、注意力机制优化等层面进行极致调优,并针对特定硬件(如NVIDIA/AMDGPU、AscendNPU)进行适配与性能压榨。

3.高并发服务化与调度:构建高吞吐、低延迟的分布式推理服务框架。实现高效的连续批处理、动态批处理、流水线并行推理,并解决多租户、多模型

文档评论(0)

1亿VIP精品文档

相关文档