通过结构化评估深化和拓宽大型语言模型评估.pdf

下载文档

0
0
约1.18万字
约 21页
2024-10-22 发布于广东
举报
版权申诉
保障服务

通过结构化评估深化和拓宽大型语言模型评估.pdf

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

StructEval：通过结构化评估深

化和拓宽大型语言模型评估

摘要：评估是开发大型语言模型（LLMs）的指挥棒。当前的

评估通常对每个原子测试目标采用单一项目评估范式，难以

辨别模型是否真正具备所需的能力，或者只是记忆/猜测特定

问题的答案。为此，本文提出了一种新的评估框架，称为

StructEval从原子测试目标出发，通过在多个认知

StructEval。

水平和关键概念上进行结构化评估，深化和拓宽了评估，从

而为LLM提供了全面、稳健和一致的评估。在三个广泛使用

的基准上的实验表明，StructEval是一种可靠的工具，可以抵

抗数据泄露的风险，减少潜在偏差的干扰，从而就模型能力

提供更可靠和一致的结论。我们的框架还为未来有原则和值

得信赖的LLM评估协议的设计提供了指导。

1简介

评估是开发大型语言模型（LLM）的基础（Ouyang等人，

2022；Touvron等人，2023b；OpenAI，2023），提供必要的

测量、反馈和视角，以促进有用性、可靠性和安全性的增强

（Chang等人，2023）。因此，提出了各种大规模的基准来

评估LLM的能力，如语言理解（Hendrycks等人，2021；Huang

等人，2023a），指令遵循（Li等人，2023；Zheng等人，2023b），

推理能力（Cobbe等人，2021；Srivastava等人，2022a）。

图1：之前的单项评估和我们的结构化评估范式的说明。

不幸的是，目前对LLM的评估通常采用单项评估范式

（Milton等人，2011），这种范式在有效性、稳健性和全面

性方面仍然存在不足。如图1a所示，为了评估LLM中的事

实知识，他们将事实知识划分为一组原子测试目标（例如，

苹果品种、胰岛素功能），并用单个实例（例如，哪个不是

苹果品种）对每个目标进行评估。然而，这种单项评估范式

很难辨别一个模型是否真正具备所需的能力，或者只是记忆

/猜测特定问题的答案。一方面，单项评估依赖于孤立实例的

正确性，孤立实例对与特定实例相关的混杂因素敏感

（Poerner等人，2020；Zhu等人，2023b），并且容易受到

偏见或捷径的影响（Cao等人，2022；Xie等人，2023；Wang

等人，2023a），这使得很难辨别模型的正确反应是由于真

正理解arXiv:2408.03281v1[cs.CL]2024年8月6日还是仅仅记

忆（Cao等。

另一方面，LLM训练数据和记忆能力的快速扩展增加了

静态基准中数据污染的风险（Carlini等人，2022；Jiang等人，

2024），可能导致模型能力评估的夸大（Magar和Schwartz，

2022；Oren等人，2023；Shi等人，2023）。也就是说，由

于测试实例对训练数据集的潜在污染，模型的真实能力可能

会被高估。此外，由于基准构建所需的资源巨大，目前大多

数基准以静态方式评估模型。因此，由于无法及时更新、复

杂性和多样性，它们可能会很快达到饱和。

为了应对上述挑战，之前的研究主要试图人工构建更新、

更难、更多样化的基准。例如，Kasai等人（2022）；Yu等

人（2023）根据最近的新闻或文章设计了评估基准；Wang

等人）在原始数据集中添加了扰动，以评估模

型的稳健性；Hendrycks等人（2021）；Huang等人（2023a）

从人类专业考试中收集测试实例，以增加难度和多样性。尽

管投入了大量资源，但之前基准测试的单项评估范式仍然难

以确定评估的绩效是否能够忠实、公平地反映模型的能力。

本文提出了一种新的结构化评估框架StructEval，可以全

面、稳健、有效地评估LLM。这是通过采用以教育学理论为

指导的结构化评估来评估多个认知水平和关键概念中每个

测试目标的模型能力来实现的，而不是依赖于单个测试立场

的正确性。具体来说，如图1b所示，StructEval由两个模块

组成，分别深化和拓宽当前评估。给定一个种子实例，第一

个模块识别其非底层测试目标，然后围绕该测试目标生成多

个测试实例，这些实例与布鲁姆分类学中概述的六个认知水

平相一致（Krathwohl，2002）。同时，第二个模块提取必须

理解的关键概念来回答种子问题（Trochim，1989），然后基

于知识图围绕

您可能关注的文档

文档评论（0）

arron + 关注: 实名认证

内容提供者

15+工作经验，擅长通信、网络安全以及售前工作

咨询Ta 进入空间

1亿VIP精品文档

更多 >

通过结构化评估深化和拓宽大型语言模型评估.pdf