- 1
- 0
- 约1.66千字
- 约 3页
- 2026-04-21 发布于河南
- 举报
PAGE
PAGE1
代码大模型评估:从HumanEval到SWE-Bench
14.1代码生成评估的核心指标
代码大模型(CodeLLM)专门用于代码生成、补全、修复、解释等任务。评估代码生成能力最核心的指标是pass@k:在k次独立生成尝试中,至少有一次能够通过所有预定义的单元测试的概率。其中,pass@1(首次尝试即通过)是最严格的指标,它衡量模型的“一次成功”能力,更接近真实开发场景中程序员期望的体验——不想多次重试。
HumanEval:由OpenAI发布的164道Python编程题基准。每道题包含一个函数签名、文档字符串(描述函数行为)和多个单元测试。模型需要根据文档字符串生成函数体,然后运行单元测试判断正确性。2021年Codex的pass@1为28.8%,2023年GPT-4提升到约67%,2025年底Claude4和GPT-5的pass@1超过90%,已接近人类水平。
MBPP(MostlyBasicPythonProblems):包含约1000道更简单的Python问题,难度低于HumanEval,适合评估模型的基础编程能力。
14.2工程级代码评估
静态的函数级代码生成已无法满足真实软件开发的需求。现代软件工程涉及多文件项目、依赖管理、版本控制、测试编写、调试修复等一系列复杂活动。为此,研究者开发了工程级代码评估基准。
SWE-B
您可能关注的文档
最近下载
- 《宏大不朽古建筑》 课件 2024—2025学年岭南美版(2024) 初中美术七年级下册.pptx VIP
- 《宏大不朽古建筑》教学课件-2024-2025学年岭南美版(2024)初中美术七年级下册.pptx VIP
- GB30871-2022 危险化学品企业特殊作业安全规范专题讲座.pdf VIP
- 人教版五年级上册数学(新插图)全册教学课件.pptx VIP
- GB30871-2022-危险化学品企业特殊作业安全规范)37.pdf VIP
- 企业安全员任命书.doc VIP
- 年产5万吨甲醛工艺第二吸收塔的设计.doc VIP
- 【科幻】莱瑟塔档案.pdf VIP
- 2026年高级卫生专业技术资格考试肾内科(004)(副高级)备考要点精析.docx VIP
- CLSI EP21-2016 医学实验室定量测量程序分析总误差的评定.pdf VIP
原创力文档

文档评论(0)