从静态知识到动态智能体：评估范式的范式重构.docxVIP

下载本文档

3
0
约1.81千字
约 4页
2026-04-18 发布于河南
举报

从静态知识到动态智能体：评估范式的范式重构.docx

PAGE

PAGE1

从静态知识到动态智能体：

评估范式的范式重构

9.1范式变革的背景

大模型技术正在经历从“文本生成器”到“智能体”的演进。2023年至2025年间，主流模型的能力焦点从“知识问答”转向“任务执行”——模型不再只是被动回答用户的问题，而是能够主动调用工具、规划多步行动、与环境交互、完成复杂的真实世界任务。这一演进对评估体系提出了全新的要求。

传统的评测基准（如MMLU、HumanEval、GSM8K）本质上都是静态知识问答：给定一个输入，模型输出一个答案，评估者对比答案与标准答案。这种“一问一答”的范式无法捕捉智能体在动态环境中的决策、规划和执行能力。因此，2024年至2026年间，大模型评测经历了剧烈的范式重构：从“静态知识问答”走向“动态智能体能力评测”。

9.2三大评测范式

当前主流的LLM评估可以归纳为三种范式，各有优劣：

白盒评估：评估者可以访问模型的内部参数和梯度信息。这种范式适合学术研究和开源模型，可以进行精细的归因分析（如“哪个神经元负责某个能力”）。但白盒评估无法应用于闭源模型（如GPT-4、Claude），且评估成本高（需要加载整个模型）。

黑盒评估：评估者仅通过API访问模型的输入输出，无法看到内部状态。这种范式适用于闭源模型和实际应用场景，评估成本较低，且与真实使用方式一致。但黑盒评估无法诊断模型内部的失效原因。

从静态知识到动态智能体：评估范式的范式重构.docxVIP

从静态知识到动态智能体：评估范式的范式重构.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档