大陪审团：一种用于动态质量评估标准的协作机器学习模型评估协议.pdfVIP

下载本文档

1
0
约1.88万字
约 14页
2025-10-13 发布于北京
举报
版权申诉

大陪审团：一种用于动态质量评估标准的协作机器学习模型评估协议.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大陪审团：一种用于动态质量评估标准的协作机器

学习模型评估协议

ArthurCho

hello@

MemoirjiLLC

本2025年8月7日

译

中摘要

v生成式机器学习模型已成为现代系统的核心，为创意写作、摘要生成、多跳推理和

6上下文感知对话提供了动力[2]。这些模型支撑着大规模AI助手、工作流自动化以及

9自主决策[15,20]。在这样的领域中，“可接受的响应”很少是绝对或静态的，而是多

0种多样且高度依赖于上下文[3]。然而，标准评估体系仍然依赖于静态的基准测试，在

8优化排行榜分数方面提供激励，而不是与动态用户需求或不断变化的实际状况保持一

5致[6]。大陪审团引入了一种正式的评估协议——结合时间衰减聚合、完整的可追溯

:性，并支持动态且透明的任务评分标准归因及多人评价的人类判断。这些元素共同使

i多元化的、负责的评估成为可能，捕捉不断演变的共识并揭示分歧。我们提供了(i)一

r个开源实现（大陪审团PyPI）和(ii)一个公共大型语言模型（LLM）推理输出集合，

以说明需求及方法。GrandJury为AI从业者在评估机器学习输出时提供了一个新的范

式没有绝对的地面真相。专利申请中：美国临时专利63/825,484，申请日期2025年

6月17日。

1介绍

生成式AI系统的快速普及改变了信息在各个领域中的生产、中介和消费方式——范

围从创意写作和会话辅助到自动摘要、分析和复杂推理任务～[2,19]。这些模型现在成为数

字助手、企业工作流、教育和研究中代理过程的基础～[23]。在这种情况下，输出不仅仅是

“正确”或“错误”，而是反映了有效观点、目标和解释的光谱～[1,21]。

然而，模型评估的标准方法仍然依赖于静态的基准数据和标准化的评估标准。诸如

BLEU[16]、ROUGE[12]和MMLU[9]等评估指标是为具有单一正确答案和明确度量的

任务设计的。长期以来，BLEU和ROUGE一直用于翻译和摘要生成任务中，倾向于奖励

抽取式的输出和n元语法重叠，无法衡量抽象性、细微差别或上下文的恰当性[18]。将它

们应用于生成式、开放型或涉及价值观的输出时，会导致所测量的内容与实际重要事项之

间产生严重的不匹配。

针对这些方法论的优化通常集中在自动化指标计算过程上。其中值得一提的是RA-

GAS（检索增强生成评估）[5]，这是一种无需参考的指标套件，旨在从检索相关性、答案

忠实度和上下文精度等多个维度来评估检索增强生成(RAG)系统，且不需要人类标注的真

实结果。类似地，LLM-as-judge方法[26,24]——包括像Prometheus[11]、JudgeLM[27]

和基于GPT的评估管道等框架——通过使用模型来评估其他模型从而实现了评分的自动

化。基于嵌入的技术，如余弦相似度[25]也常用于自动可信性检查。

然而，这些代理方法仍然不足：RAGAS指标缺乏对开放式任务的实证验证，并且经常

与人类偏好不相关[7]，作为裁判系统的LLM表现出可变偏差并对提示敏感[17,22]，基

于嵌入的评分忽略了叙事、语用或风格上的忠实度[14]。因此，尽管这些尝试旨在绕过手

动标注的需求，但它们仍然难以与微妙的人类判断相一致。更糟的是，随着供应商和研究

人员设计自己的基准测试，“最新技术”的定义变得越来越可塑且自我参照[13,8]。

2不确定性情况下的评

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

大陪审团：一种用于动态质量评估标准的协作机器学习模型评估协议.pdfVIP