- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
StructEval:通过结构化评估深
化和拓宽大型语言模型评估
摘要:评估是开发大型语言模型(LLMs)的指挥棒。当前的
评估通常对每个原子测试目标采用单一项目评估范式,难以
辨别模型是否真正具备所需的能力,或者只是记忆/猜测特定
问题的答案。为此,本文提出了一种新的评估框架,称为
StructEval从原子测试目标出发,通过在多个认知
StructEval。
水平和关键概念上进行结构化评估,深化和拓宽了评估,从
而为LLM提供了全面、稳健和一致的评估。在三个广泛使用
的基准上的实验表明,StructEval是一种可靠的工具,可以抵
抗数据泄露的风险,减少潜在偏差的干扰,从而就模型能力
提供更可靠和一致的结论。我们的框架还为未来有原则和值
得信赖的LLM评估协议的设计提供了指导。
1简介
评估是开发大型语言模型(LLM)的基础(Ouyang等人,
2022;Touvron等人,2023b;OpenAI,2023),提供必要的
测量、反馈和视角,以促进有用性、可靠性和安全性的增强
(Chang等人,2023)。因此,提出了各种大规模的基准来
评估LLM的能力,如语言理解(Hendrycks等人,2021;Huang
等人,2023a),指令遵循(Li等人,2023;Zheng等人,2023b),
推理能力(Cobbe等人,2021;Srivastava等人,2022a)。
图1:之前的单项评估和我们的结构化评估范式的说明。
不幸的是,目前对LLM的评估通常采用单项评估范式
(Milton等人,2011),这种范式在有效性、稳健性和全面
性方面仍然存在不足。如图1a所示,为了评估LLM中的事
实知识,他们将事实知识划分为一组原子测试目标(例如,
苹果品种、胰岛素功能),并用单个实例(例如,哪个不是
苹果品种)对每个目标进行评估。然而,这种单项评估范式
很难辨别一个模型是否真正具备所需的能力,或者只是记忆
/猜测特定问题的答案。一方面,单项评估依赖于孤立实例的
正确性,孤立实例对与特定实例相关的混杂因素敏感
(Poerner等人,2020;Zhu等人,2023b),并且容易受到
偏见或捷径的影响(Cao等人,2022;Xie等人,2023;Wang
等人,2023a),这使得很难辨别模型的正确反应是由于真
正理解arXiv:2408.03281v1[cs.CL]2024年8月6日还是仅仅记
忆(Cao等。
另一方面,LLM训练数据和记忆能力的快速扩展增加了
静态基准中数据污染的风险(Carlini等人,2022;Jiang等人,
2024),可能导致模型能力评估的夸大(Magar和Schwartz,
2022;Oren等人,2023;Shi等人,2023)。也就是说,由
于测试实例对训练数据集的潜在污染,模型的真实能力可能
会被高估。此外,由于基准构建所需的资源巨大,目前大多
数基准以静态方式评估模型。因此,由于无法及时更新、复
杂性和多样性,它们可能会很快达到饱和。
为了应对上述挑战,之前的研究主要试图人工构建更新、
更难、更多样化的基准。例如,Kasai等人(2022);Yu等
人(2023)根据最近的新闻或文章设计了评估基准;Wang
等人)在原始数据集中添加了扰动,以评估模
型的稳健性;Hendrycks等人(2021);Huang等人(2023a)
从人类专业考试中收集测试实例,以增加难度和多样性。尽
管投入了大量资源,但之前基准测试的单项评估范式仍然难
以确定评估的绩效是否能够忠实、公平地反映模型的能力。
本文提出了一种新的结构化评估框架StructEval,可以全
面、稳健、有效地评估LLM。这是通过采用以教育学理论为
指导的结构化评估来评估多个认知水平和关键概念中每个
测试目标的模型能力来实现的,而不是依赖于单个测试立场
的正确性。具体来说,如图1b所示,StructEval由两个模块
组成,分别深化和拓宽当前评估。给定一个种子实例,第一
个模块识别其非底层测试目标,然后围绕该测试目标生成多
个测试实例,这些实例与布鲁姆分类学中概述的六个认知水
平相一致(Krathwohl,2002)。同时,第二个模块提取必须
理解的关键概念来回答种子问题(Trochim,1989),然后基
于知识图围绕
您可能关注的文档
最近下载
- 高中物理讲义.pdf VIP
- 福禄克Fluke MDA-510 和 MDA-550 电机驱动分析仪MDA-550 MDA-510 安全须知.pdf
- 2023-2024学年七年级上期期中语文试题(含答案) .pdf VIP
- 精品在线课程汇报定稿.ppt
- 爱祖国爱家乡爱母校.pptx VIP
- 秋天的快乐PowerPoint演示文稿.pptx
- 25题技术架构师岗位常见面试问题含HR问题考察点及参考回答.pdf VIP
- 浙江省湖州市2023-2024学年高一上学期期末考试语文试题 Word版含解析.docx
- 企业性质(科斯).doc VIP
- 2023年软考初级信息系统运行管理员历年经典真题及解析part.docx
文档评论(0)