- 3
- 0
- 约1.81千字
- 约 4页
- 2026-04-18 发布于河南
- 举报
PAGE
PAGE1
从静态知识到动态智能体:
评估范式的范式重构
9.1范式变革的背景
大模型技术正在经历从“文本生成器”到“智能体”的演进。2023年至2025年间,主流模型的能力焦点从“知识问答”转向“任务执行”——模型不再只是被动回答用户的问题,而是能够主动调用工具、规划多步行动、与环境交互、完成复杂的真实世界任务。这一演进对评估体系提出了全新的要求。
传统的评测基准(如MMLU、HumanEval、GSM8K)本质上都是静态知识问答:给定一个输入,模型输出一个答案,评估者对比答案与标准答案。这种“一问一答”的范式无法捕捉智能体在动态环境中的决策、规划和执行能力。因此,2024年至2026年间,大模型评测经历了剧烈的范式重构:从“静态知识问答”走向“动态智能体能力评测”。
9.2三大评测范式
当前主流的LLM评估可以归纳为三种范式,各有优劣:
白盒评估:评估者可以访问模型的内部参数和梯度信息。这种范式适合学术研究和开源模型,可以进行精细的归因分析(如“哪个神经元负责某个能力”)。但白盒评估无法应用于闭源模型(如GPT-4、Claude),且评估成本高(需要加载整个模型)。
黑盒评估:评估者仅通过API访问模型的输入输出,无法看到内部状态。这种范式适用于闭源模型和实际应用场景,评估成本较低,且与真实使用方式一致。但黑盒评估无法诊断模型内部的失效原因。
人工
原创力文档

文档评论(0)