- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
探测评估语言模型的意识
1213
JordNguyenKhiemHoangCarloLeonardoAttubatoFelixHofstätter
Abstract构成了AI治理策略的经验基础,从领先的人工智
语言模型能够区分测试和部署阶段——这能实验室(Anthropic,2023;OpenAI,2023;METR,
种能力被称为评估意识。这具有重要的安2025)采用的自愿负责任扩大政策(RSP)到欧盟人
全和政策含义,可能会削弱对人工智能治工智能法案(Union,2024)中提出的监管要求以及如
理框架和自愿性行业承诺至关重要的评估NIST(ofStandardsandTechnology,2023)等机构
制定的指导框架。这些政策通常规定,如果模型在
的可靠性。在本文中,我们研究了Llama-
本3.3-70B-Instruct中的评估意识。我们展示基准测试中表现出危险能力(例如WMDP(Lietal.,
了线性探测器可以区分现实世界的评估和2024)),则必须实施特定的安全协议或部署限制。
译
中部署提示,这表明当前模型内部表示这种最近的研究表明前沿模型可以区分评估和部署场
区别。我们还发现,目前的安全评估被探景——这种能力被称为评估意识(Goldowsky-Dill
1
v测器正确分类,这意味着它们已经显得对etal.,2025a)。多项研究表明,语言模型“具有相当
6模型而言是人为或不真实的。我们的研究好的判断能力,可以分辨给定的交互是否来自真实
8
7结果强调了确保值得信赖的评估和理解欺部署环境或评估”(Needhametal.,2025),并能“意
1骗能力的重要性。更广泛地说,我们的工识到它们正在接受对齐评估”(Goldowsky-Dilletal.,
0
7.作展示了如何利用模型内部来支持黑箱方2025a)。这种能力在实际应用中也有所观察,例如,
0法进行安全审计,特别是对于未来在评估在信息检索任务中,Claude3Opus实例自发标记了
5
2意识和欺骗方面更有能力的模型。一个不合适的陈述为可能是测试(Anthropic,2024)。
:
v
i评估意识令人担忧,因为它削弱了我们对模型安全
x
r1.介绍性的评估能力,并进而影响建立在这些评估基础上
a
的治理机制的完整性。在人类心理学研究中,测试
目前,大型语言模型(LLM)的生命周期通常涉及
条件的意识会改变行为(McCambridgeetal.,2013),
四个阶段:预训练、后训练、测试和部署。在测试
意识到自己正在被评估的模型可能会与部署期间
阶段,模型会以基准的形式接收输入并生成响应。
的表现不同。这特别不利于安全评估,在这
文档评论(0)