代码大模型评估:从HumanEval到SWE-Bench.docxVIP

  • 1
  • 0
  • 约1.66千字
  • 约 3页
  • 2026-04-21 发布于河南
  • 举报

代码大模型评估:从HumanEval到SWE-Bench.docx

PAGE

PAGE1

代码大模型评估:从HumanEval到SWE-Bench

14.1代码生成评估的核心指标

代码大模型(CodeLLM)专门用于代码生成、补全、修复、解释等任务。评估代码生成能力最核心的指标是pass@k:在k次独立生成尝试中,至少有一次能够通过所有预定义的单元测试的概率。其中,pass@1(首次尝试即通过)是最严格的指标,它衡量模型的“一次成功”能力,更接近真实开发场景中程序员期望的体验——不想多次重试。

HumanEval:由OpenAI发布的164道Python编程题基准。每道题包含一个函数签名、文档字符串(描述函数行为)和多个单元测试。模型需要根据文档字符串生成函数体,然后运行单元测试判断正确性。2021年Codex的pass@1为28.8%,2023年GPT-4提升到约67%,2025年底Claude4和GPT-5的pass@1超过90%,已接近人类水平。

MBPP(MostlyBasicPythonProblems):包含约1000道更简单的Python问题,难度低于HumanEval,适合评估模型的基础编程能力。

14.2工程级代码评估

静态的函数级代码生成已无法满足真实软件开发的需求。现代软件工程涉及多文件项目、依赖管理、版本控制、测试编写、调试修复等一系列复杂活动。为此,研究者开发了工程级代码评估基准。

SWE-B

文档评论(0)

1亿VIP精品文档

相关文档