朱耀明-Agent评测体系介绍.pdfVIP

  • 0
  • 0
  • 约1.03万字
  • 约 37页
  • 2026-01-23 发布于山东
  • 举报

Agent时代下的代码评测范式革新

面向未来的CodeAgent评测

美团M17AGI-Eval朱耀明

2026年1月

AGI-Eval

1

Agent时代下的代码评测范式革新

AGI-Eva

•Agent时代的到来

•CodingisImportant

•评测范式的挑战与转变

•评测范式一:通过率导向-群体竞赛导向

•评测范式二:人类作为评测生产者-agent作为评测生产者

2

CodingisImportant

AGI-Eva

3

Ref:AnthropicEconomicIndexreport:UnevengeographicandenterpriseAIadoption

现行代码评测范式的挑战

AGI-Eva

•传统的评测方向1:更难的题目HumanEval-LiveCodeBench-OIBench

4

现行代码评测范式的挑战

AGI-Eva

•传统的评测方向1:更难的题目HumanEval-LiveCodeBench-OIBench

5

现行代码评测范式的挑战

AGI-Eva

•传统的评测方向1:更难的题目HumanEval-LiveCodeBench-OIBench

6

现行代码评测范式的挑战

AGI-Eva

•挑战1:LLM的能力增长快于人类

7

Ref:MeasuringAIAbilitytoCompleteLongTasks(METR)

现行代码评测范式的挑战

AGI-Eva

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档