- 1
- 0
- 约2.37万字
- 约 8页
- 2026-02-26 发布于北京
- 举报
早期针对提示注入防御的对抗微调方法研究:一项关于GPT-3及当代模型的
2022年研究
GustavoSandoval,DenysFenchenko,JunyaoChen
{gs157,df1911,jc9723,}@
Abstract的模型。例如,可以通过使用提示:纠正为标准英语:
本文记录了2022年早期关于防御大型语言模型中提示{user_input},其中请提供需要翻译的文字内容。是最
注入攻击的研究,为这一关键安全领域的演变提供了历终用户提供的短语来构建一个语法纠正工具。
史背景。本研究集中于针对大型语言模型(LLMs)的两然而,使用GPT-3构建应用程序的便利性也带来
种对抗性攻击:提示注入和目标劫持。我们探讨了如何了漏洞:恶意用户可以通过应用程序界面注入对抗指令
本构建这些攻击,在各种LLM上进行了测试,并比较了(PerezandRibeiro2022)。这些正是本研究旨在探索的
译它们的有效性。我们提出并评估了一种名为对抗微调的攻击。
新防御技术。我们的结果显示,没有这种防御措施,攻
我们的工作探讨了对抗性提示攻击,并提出并实现
中击在GPT-3系列模型上的成功率达到了31%。当我们
了解决方案。我们主要的贡献如下:
1采用对抗微调方法时,对于较小的GPT-3变体(Ada、
vBabbage、Curie)来说,攻击的成功率几乎降到了零。不1.探索两种不同的提示注入攻击:目标劫持和提示
1
过我们注意到后续研究表明了基于微调的防御策略存在
7泄露。
2局限性。我们还发现更加灵活的模型对这些攻击表现出
4更大的脆弱性。因此,大型模型如GPT-3Davinci比小2.对这些攻击进行经验性测试各种大型语言模型。
1.型模型如GPT-2更容易受到攻击。尽管测试的具体模型3.提出并实现了一种名为“对抗微调”的防御策略,该
9现在已经过时,但核心方法论和经验性发现为现代提示
0注入防御研究奠定了基础,包括指令层级系统和宪法AI策略缓解了针对基于GPT-3模型的大部分攻击。
5
2方法。
:历史背景与贡献
v
i介绍这项研究于2022年进行,正值提示注入漏洞研究
x
r生成式预训练变换器(GPT)模型是基于变换器的的初期阶段,当时GPT-3代表了大规模语言模型的最
a
大型无监督语言模型,能够理解和生成自然语言。目前先进技术。那时,针对提示注入的系统性防御措施大多
最受欢迎的模型基于GPT-3(Brownandetal.2020)。未被探索,使得这项研究成为最早对这种特定漏洞类别
这些由OpenAI引入的模型不依赖特定任务,意味着它进行对抗微调的经验研究之一。
们可以使用少量示例或演示(称为射击)来执行任务。我们开发的技术,特别是结构化分隔符
GPT-3包含大约1750亿个参数,并已在网络文本、书(userInput标签)的使用和对抗样本的融入,此后
籍、维基百科和其他文本数据源上进行了训练。该模影响了更为复杂的方法,包括:
型具有多种应用,包括文本生成、翻译、情感分析、摘
您可能关注的文档
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 哈希基线:在预训练模型时代重新思考.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf
- 用于相同库默方程的神经网络:架构考虑与性能评估.pdf
- 捣谷社区二次元AI聊天机器人:为OC角色创建智能对话体教程.docx
- 2026年春季学期学校新队员入队仪式方案及队前教育考核.docx
- 聚焦高阶思维培养的挑战性学习任务设计与实践研究开题论证-(2).docx
- 2025-2026学年第二学期教研组基于大数据的学情分析报告撰写指导方案.docx
- 用GenX修复老照片同时生成怀旧风格的短视频与电子相册.docx
- XX区实验初级中学2026年春季学期校园传染病防控晨检午检方案.docx
- XX区实验初级中学2026年春季学期学生营养健康饮食指导方案.docx
- 2026年春季学期学校教学工作计划:一个中心、两大驱动、三条主线、四项保障!.docx
- XX区实验初级中学2026年春季学期家校沟通平台运营管理方案.docx
- 2026年春季学期学校教学能手评选暨课堂教学展示活动实施方案细则公布.docx
原创力文档

文档评论(0)