- 1
- 0
- 约2.65千字
- 约 2页
- 2026-05-08 发布于广东
- 举报
大模型评测工程师(工程/产品方向)岗位说明书(2026年)
岗位名称
大模型评测工程师(工程/产品方向)
岗位编号
所在部门
AI平台质量部/AI产品部/模型技术中台
岗位定员
直接上级
职系
直接下级
所辖人员数量
岗位分析
岗位分析日期
岗位概述:
负责构建并执行一套面向产品与工程需求的大模型(LLM)综合评测体系。核心工作是从产品功能、用户体验、性能、成本、安全与合规等多维度出发,设计评测方案、构建评测集、开发自动化评测工具与平台,并对主流及自研模型、不同微调版本、提示工程策略等进行系统化评估。通过科学、可复现的评测,产出权威、可操作的评测报告,为模型选型、采购、应用开发、产品决策与研发优化提供关键数据支撑,驱动AI产品在效果、效率与成本之间找到最佳平衡点。
主要工作职责:
1.评测体系与标准建设:主导建立贴合公司业务场景的大模型综合评测体系。定义涵盖能力、性能、成本、安全、可用性、一致性等多个维度的评价指标(如任务完成度、回答准确性、事实性、时延、Token成本、有害性、偏见性、风格一致性等)。将模糊的“效果好坏”转化为可量化、可比较的标准化指标;
2.评测集与场景构建:设计、构建、维护高质量的评测基准集。包括标准能力评测集和贴近真实产品场景的业务评测集。与产品、运营团队合作,深入理解用户任务与痛点,将业务需求抽象为具体的评测任务与标准答案。管理和迭代评测数据,确保其代表性
原创力文档

文档评论(0)