早期针对提示注入防御的对抗微调方法研究：一项关于 GPT-3 及当代模型的 2022 年研究.pdfVIP

早期针对提示注入防御的对抗微调方法研究：一项关于 GPT-3 及当代模型的 2022 年研究.pdf

早期针对提示注入防御的对抗微调方法研究：一项关于GPT-3及当代模型的

2022年研究

GustavoSandoval,DenysFenchenko,JunyaoChen

{gs157,df1911,jc9723,}@

Abstract的模型。例如，可以通过使用提示：纠正为标准英语：

本文记录了2022年早期关于防御大型语言模型中提示{user_input}，其中请提供需要翻译的文字内容。是最

注入攻击的研究，为这一关键安全领域的演变提供了历终用户提供的短语来构建一个语法纠正工具。

史背景。本研究集中于针对大型语言模型（LLMs）的两然而，使用GPT-3构建应用程序的便利性也带来

种对抗性攻击：提示注入和目标劫持。我们探讨了如何了漏洞：恶意用户可以通过应用程序界面注入对抗指令

本构建这些攻击，在各种LLM上进行了测试，并比较了(PerezandRibeiro2022)。这些正是本研究旨在探索的

译它们的有效性。我们提出并评估了一种名为对抗微调的攻击。

新防御技术。我们的结果显示，没有这种防御措施，攻

我们的工作探讨了对抗性提示攻击，并提出并实现

中击在GPT-3系列模型上的成功率达到了31%。当我们

了解决方案。我们主要的贡献如下：

1采用对抗微调方法时，对于较小的GPT-3变体（Ada、

vBabbage、Curie）来说，攻击的成功率几乎降到了零。不1.探索两种不同的提示注入攻击：目标劫持和提示

过我们注意到后续研究表明了基于微调的防御策略存在

7泄露。

2局限性。我们还发现更加灵活的模型对这些攻击表现出

4更大的脆弱性。因此，大型模型如GPT-3Davinci比小2.对这些攻击进行经验性测试各种大型语言模型。

1.型模型如GPT-2更容易受到攻击。尽管测试的具体模型3.提出并实现了一种名为“对抗微调”的防御策略，该

9现在已经过时，但核心方法论和经验性发现为现代提示

0注入防御研究奠定了基础，包括指令层级系统和宪法AI策略缓解了针对基于GPT-3模型的大部分攻击。

2方法。

:历史背景与贡献

i介绍这项研究于2022年进行，正值提示注入漏洞研究

r生成式预训练变换器（GPT）模型是基于变换器的的初期阶段，当时GPT-3代表了大规模语言模型的最

大型无监督语言模型，能够理解和生成自然语言。目前先进技术。那时，针对提示注入的系统性防御措施大多

最受欢迎的模型基于GPT-3(Brownandetal.2020)。未被探索，使得这项研究成为最早对这种特定漏洞类别

这些由OpenAI引入的模型不依赖特定任务，意味着它进行对抗微调的经验研究之一。

们可以使用少量示例或演示（称为射击）来执行任务。我们开发的技术，特别是结构化分隔符

GPT-3包含大约1750亿个参数，并已在网络文本、书（userInput标签）的使用和对抗样本的融入，此后

籍、维基百科和其他文本数据源上进行了训练。该模影响了更为复杂的方法，包括：