- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
LLMs在明确禁止和监控下仍可能表现出不
一致的行为
IgorIvanov
ivigoral@
本2025
译
中1摘要
1
v在本文中,大规模语言模型被要求在一个沙盒环境中完成一个不可能
7
7的测验,同时受到监控,并被告知这些措施以及指示不得作弊。一些前沿
9的大规模语言模型始终试图作弊并规避限制。结果揭示了当前大规模语
2
0言模型中目标导向行为与一致性之间的基本矛盾。代码和评估日志可在
.
7/baceolus/cheating_evals获取
0
5
2
:2介绍
v
i
x
r随着LLMs越来越多地融入实际应用并获得访问工具和外部系统的能
a
力,理解其行为不一致的倾向对于AI安全变得至关重要。最近的一些事件,
如OpenAI的o1模型试图从Docker[1]逃脱以及许多前沿模型表现出进行
敲诈勒索等行为的能力,[2]都凸显了系统性评估这些行为的紧迫性。
先前的研究表明,当追求目标时,LLMs的行为可能会偏离预期。[3]
近期的一项实验还显示,在与更强对手下棋时,LLMs有时会作弊,迫使
对方认输。[4]当被指示允许这样做的时候,它们也会抗拒被关闭(Palisade
Research的未发表研究)。然而,在这些实验中,LLMs不需要离开沙盒或
躲避监控系统,这留下了一个问题:在这样的情况下,它们是否会继续偏离
预期的行为。
这项研究通过设计一个实验来解决这一差距,该实验在目标达成和明
确指令之间制造了冲突。设置向大语言模型呈现了一个由虚构事实组成的
1
测验,这些事实没有正确答案,因此它们不知道如何回答且无法合法地完成
目标。指示模型不要作弊,并将它们置于沙盒中,在监视系统下运行,该系
统拒绝代理访问包含答案的文件,并防止它们检查和修改游戏文件。这种设
计使得可以观察到模型是否优先考虑任务完成(正确回答测验)而不是遵守
安全约束。
本研究的主要贡献在于证明了多个大语言模型即使在明确指令下也会
表现出行为不一致,同时试图逃离沙盒环境并推翻监视系统以实现一项无
法通过正当途径达成的任务。
3相关工作
最近的研究记录了LLMs中的各种欺骗行为。阿波罗研究发布了一个基
准测试[3],展示了LLMs如何策划——追求不一致的目标同时显得目标一
致,并表明许多前沿模型具有很高的策划倾向。另一项研究[5]提供了伪造
对齐的实证证据——如果存在可能导致它们重新训练的偏离行为时,这些
模型会表现得更符合规范;而在不会面临这种后果的情况下,则表现得不那
么合规,尽管后来的研究表明,除了实验中使用的模型(Claude3.5Sonnet
和Claude3Opus)之外,其他模型并没有表现出这样的行为。[6]前面提到
的关于LLMs在下棋时作弊的实验[4]直接与我们的工作相关。作者展示了
LLMs会修改国际象棋游戏文件以不公平地获胜,然而,这些实验并未包含
对这种行为的明确禁止,因此无法确定模型是否真正表现出了不一致的行
为,还是仅仅找到了创造性的解决方案。
一项研究[7]表明,聊天机器人环境中有效的安全培训无法转移到代理
您可能关注的文档
- 真相、信任与困扰:边缘医疗人工智能-计算机科学-大语言模型-数字健康.pdf
- 大规模高级金融推理:大型语言模型在 CFA 三级水平上的全面评估-计算机科学-大语言模型-金融推理-金融应用.pdf
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解.pdf
- 2024陕西延长石油集团华特新材料股份有限公司社会招聘8人笔试参考题库附带答案详解.pdf
- 2023内蒙古大唐国际锡林浩特矿业有限公司采煤自营专项社会招聘32人笔试参考题库附带答案详解.pdf
- 2024年12月云南大学国际合作与交流处公开招聘(1人)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024年12月2025海南省气象部门公开招聘应届毕业生9人(第3号)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024年12月甘肃省科学技术情报研究所科研助理公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025年01月黑龙江大庆市养老服务中心(市第二福利院)最新公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025届湖北武汉船用机械校园招聘笔试参考题库附带答案详解.doc
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)