代码大模型评估：从HumanEval到SWE-Bench.docxVIP

下载本文档

1
0
约1.66千字
约 3页
2026-04-21 发布于河南
举报

代码大模型评估：从HumanEval到SWE-Bench.docx

PAGE

PAGE1

代码大模型评估：从HumanEval到SWE-Bench

14.1代码生成评估的核心指标

代码大模型（CodeLLM）专门用于代码生成、补全、修复、解释等任务。评估代码生成能力最核心的指标是pass@k：在k次独立生成尝试中，至少有一次能够通过所有预定义的单元测试的概率。其中，pass@1（首次尝试即通过）是最严格的指标，它衡量模型的“一次成功”能力，更接近真实开发场景中程序员期望的体验——不想多次重试。

HumanEval：由OpenAI发布的164道Python编程题基准。每道题包含一个函数签名、文档字符串（描述函数行为）和多个单元测试。模型需要根据文档字符串生成函数体，然后运行单元测试判断正确性。2021年Codex的pass@1为28.8%，2023年GPT-4提升到约67%，2025年底Claude4和GPT-5的pass@1超过90%，已接近人类水平。

MBPP（MostlyBasicPythonProblems）：包含约1000道更简单的Python问题，难度低于HumanEval，适合评估模型的基础编程能力。

14.2工程级代码评估

静态的函数级代码生成已无法满足真实软件开发的需求。现代软件工程涉及多文件项目、依赖管理、版本控制、测试编写、调试修复等一系列复杂活动。为此，研究者开发了工程级代码评估基准。

代码大模型评估：从HumanEval到SWE-Bench.docxVIP

代码大模型评估：从HumanEval到SWE-Bench.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档