对抗提示注入攻击的多代理 LLM 防御管道.pdfVIP

对抗提示注入攻击的多代理 LLM 防御管道.pdf

对抗提示注入攻击的多代理LLM防御管道

112345

S.M.AsifHossain,RuksatKhanShayoni,MohdRuhulAmeen,AkifIslam,M.F.Mridha,JungpilShin

1SchoolofComputing,WichitaStateUniversity,Kansas,USA

Emails:sxhossain10@,rxshayoni@

2CollegeofEngineeringandComputerSciences,MarshallUniversity,Huntington,WV,USA

Email:ameen@

3DepartmentofComputerScienceandEngineering,UniversityofRajshahi,Bangladesh

Email:s1910776135@ru.ac.bd

4DepartmentofComputerScienceandEngineering,AmericanInternationalUniversity-Bangladesh,Dhaka,Bangladesh

Email:firoz.mridha@

本5

译SchoolofComputerScienceandEngineering,TheUniversityofAizu,Aizuwakamatsu,Japan

中Email:jpshin@u-aizu.ac.jp

5摘要—注入攻击代表了大型语言模型（LLM）部署中的一传统的安全方法，包括静态输入清理和内容过滤，

8个主要漏洞，其中用户输入中嵌入的恶意指令可以覆盖系统提示在面对复杂的提示注入技术[6],[7]时证明是不足的。这

2并诱发非预期行为。本文提出了一种新颖的多代理防御框架，该些攻击利用了大型语言模型的基本架构，其中系统提示

1.框架使用专门化的LLM代理在协调管道中检测和中和实时的和用户输入被视为统一的文本序列，从而使恶意指令能

9注入攻击。我们通过两种不同的架构评估了我们的方法：一个顺

0序的代理链管道和一个基于分层协调器的系统。我们在55个独够覆盖预期行为[8]。最近的研究表明，即使是经过良

5特的注入攻击上进行了全面评估，这些攻击被分为8类，并且在好训练的安全对齐模型也仍然容易受到精心设计的对

:两个LLM平台（ChatGLM和Llama2）上总计有400次攻抗性提示的影响[9],[10]。

i击实例，结果显示了显著的安全改进。没有防御机制的情况下，现有的防御策略可以分为几类：输入预处理[11]，

r基准攻击成功率（ASR）对于ChatGLM达到了30%，而对输出过滤[12]，提示工程[13]和模型微调[14]。然而，

a于Llama2则为20%。我们的多代理管道实现了100%的缓解

这些方法在应对新型攻击载体和保持系统效用方面常

效果，将所有测试场景下的ASR降低到了0%。该框架在多种

攻击类别中表现出鲁棒性，包括直接覆盖、代码执行尝试、数据常表现出局限性。多代理架构通过利用分布式智能来实

外泄和混淆技术，同时保持了对合法查询的系统功能。现纵深防御策略[15],[16]，提供了一种有希望的替代

IndexTerms—大型语言模型，提示注入，多智能体系统，方案。

网络安全，人工智能安全本文介绍了一个全面的多智能

更多 >