通过结构化评估深化和拓宽大型语言模型评估.pdf

通过结构化评估深化和拓宽大型语言模型评估.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

StructEval:通过结构化评估深

化和拓宽大型语言模型评估

摘要:评估是开发大型语言模型(LLMs)的指挥棒。当前的

评估通常对每个原子测试目标采用单一项目评估范式,难以

辨别模型是否真正具备所需的能力,或者只是记忆/猜测特定

问题的答案。为此,本文提出了一种新的评估框架,称为

StructEval从原子测试目标出发,通过在多个认知

StructEval。

水平和关键概念上进行结构化评估,深化和拓宽了评估,从

而为LLM提供了全面、稳健和一致的评估。在三个广泛使用

的基准上的实验表明,StructEval是一种可靠的工具,可以抵

抗数据泄露的风险,减少潜在偏差的干扰,从而就模型能力

提供更可靠和一致的结论。我们的框架还为未来有原则和值

得信赖的LLM评估协议的设计提供了指导。

1简介

评估是开发大型语言模型(LLM)的基础(Ouyang等人,

2022;Touvron等人,2023b;OpenAI,2023),提供必要的

测量、反馈和视角,以促进有用性、可靠性和安全性的增强

(Chang等人,2023)。因此,提出了各种大规模的基准来

评估LLM的能力,如语言理解(Hendrycks等人,2021;Huang

等人,2023a),指令遵循(Li等人,2023;Zheng等人,2023b),

推理能力(Cobbe等人,2021;Srivastava等人,2022a)。

图1:之前的单项评估和我们的结构化评估范式的说明。

不幸的是,目前对LLM的评估通常采用单项评估范式

(Milton等人,2011),这种范式在有效性、稳健性和全面

性方面仍然存在不足。如图1a所示,为了评估LLM中的事

实知识,他们将事实知识划分为一组原子测试目标(例如,

苹果品种、胰岛素功能),并用单个实例(例如,哪个不是

苹果品种)对每个目标进行评估。然而,这种单项评估范式

很难辨别一个模型是否真正具备所需的能力,或者只是记忆

/猜测特定问题的答案。一方面,单项评估依赖于孤立实例的

正确性,孤立实例对与特定实例相关的混杂因素敏感

(Poerner等人,2020;Zhu等人,2023b),并且容易受到

偏见或捷径的影响(Cao等人,2022;Xie等人,2023;Wang

等人,2023a),这使得很难辨别模型的正确反应是由于真

正理解arXiv:2408.03281v1[cs.CL]2024年8月6日还是仅仅记

忆(Cao等。

另一方面,LLM训练数据和记忆能力的快速扩展增加了

静态基准中数据污染的风险(Carlini等人,2022;Jiang等人,

2024),可能导致模型能力评估的夸大(Magar和Schwartz,

2022;Oren等人,2023;Shi等人,2023)。也就是说,由

于测试实例对训练数据集的潜在污染,模型的真实能力可能

会被高估。此外,由于基准构建所需的资源巨大,目前大多

数基准以静态方式评估模型。因此,由于无法及时更新、复

杂性和多样性,它们可能会很快达到饱和。

为了应对上述挑战,之前的研究主要试图人工构建更新、

更难、更多样化的基准。例如,Kasai等人(2022);Yu等

人(2023)根据最近的新闻或文章设计了评估基准;Wang

等人)在原始数据集中添加了扰动,以评估模

型的稳健性;Hendrycks等人(2021);Huang等人(2023a)

从人类专业考试中收集测试实例,以增加难度和多样性。尽

管投入了大量资源,但之前基准测试的单项评估范式仍然难

以确定评估的绩效是否能够忠实、公平地反映模型的能力。

本文提出了一种新的结构化评估框架StructEval,可以全

面、稳健、有效地评估LLM。这是通过采用以教育学理论为

指导的结构化评估来评估多个认知水平和关键概念中每个

测试目标的模型能力来实现的,而不是依赖于单个测试立场

的正确性。具体来说,如图1b所示,StructEval由两个模块

组成,分别深化和拓宽当前评估。给定一个种子实例,第一

个模块识别其非底层测试目标,然后围绕该测试目标生成多

个测试实例,这些实例与布鲁姆分类学中概述的六个认知水

平相一致(Krathwohl,2002)。同时,第二个模块提取必须

理解的关键概念来回答种子问题(Trochim,1989),然后基

于知识图围绕

文档评论(0)

arron + 关注
实名认证
内容提供者

15+工作经验,擅长通信、网络安全以及售前工作

1亿VIP精品文档

相关文档