- 0
- 0
- 约2.07万字
- 约 7页
- 2026-02-26 发布于北京
- 举报
对抗提示注入攻击的多代理LLM防御管道
112345
S.M.AsifHossain,RuksatKhanShayoni,MohdRuhulAmeen,AkifIslam,M.F.Mridha,JungpilShin
1SchoolofComputing,WichitaStateUniversity,Kansas,USA
Emails:sxhossain10@,rxshayoni@
2CollegeofEngineeringandComputerSciences,MarshallUniversity,Huntington,WV,USA
Email:ameen@
3DepartmentofComputerScienceandEngineering,UniversityofRajshahi,Bangladesh
Email:s1910776135@ru.ac.bd
4DepartmentofComputerScienceandEngineering,AmericanInternationalUniversity-Bangladesh,Dhaka,Bangladesh
Email:firoz.mridha@
本5
译SchoolofComputerScienceandEngineering,TheUniversityofAizu,Aizuwakamatsu,Japan
中Email:jpshin@u-aizu.ac.jp
1
v
5摘要—注入攻击代表了大型语言模型(LLM)部署中的一传统的安全方法,包括静态输入清理和内容过滤,
8个主要漏洞,其中用户输入中嵌入的恶意指令可以覆盖系统提示在面对复杂的提示注入技术[6],[7]时证明是不足的。这
2并诱发非预期行为。本文提出了一种新颖的多代理防御框架,该些攻击利用了大型语言模型的基本架构,其中系统提示
4
1.框架使用专门化的LLM代理在协调管道中检测和中和实时的和用户输入被视为统一的文本序列,从而使恶意指令能
9注入攻击。我们通过两种不同的架构评估了我们的方法:一个顺
0序的代理链管道和一个基于分层协调器的系统。我们在55个独够覆盖预期行为[8]。最近的研究表明,即使是经过良
5特的注入攻击上进行了全面评估,这些攻击被分为8类,并且在好训练的安全对齐模型也仍然容易受到精心设计的对
2
:两个LLM平台(ChatGLM和Llama2)上总计有400次攻抗性提示的影响[9],[10]。
v
i击实例,结果显示了显著的安全改进。没有防御机制的情况下,现有的防御策略可以分为几类:输入预处理[11],
x
r基准攻击成功率(ASR)对于ChatGLM达到了30%,而对输出过滤[12],提示工程[13]和模型微调[14]。然而,
a于Llama2则为20%。我们的多代理管道实现了100%的缓解
这些方法在应对新型攻击载体和保持系统效用方面常
效果,将所有测试场景下的ASR降低到了0%。该框架在多种
攻击类别中表现出鲁棒性,包括直接覆盖、代码执行尝试、数据常表现出局限性。多代理架构通过利用分布式智能来实
外泄和混淆技术,同时保持了对合法查询的系统功能。现纵深防御策略[15],[16],提供了一种有希望的替代
IndexTerms—大型语言模型,提示注入,多智能体系统,方案。
网络安全,人工智能安全本文介绍了一个全面的多智能
您可能关注的文档
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 哈希基线:在预训练模型时代重新思考.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf
最近下载
- JVC摄像机GR-DX300AG用户手册.pdf
- 第1课 《邓稼先》:拳拳赤子心,璀璨星空梦(课件)-【大单元教学】七年级语文下册(统编版2024).pptx
- Netvault带库配置操作指引.docx VIP
- 《Netvault配置指南》课件.pptx VIP
- BRW500-31.5F型乳化液泵组随机图册教程.doc VIP
- NetVault Backup 简易操作指南.pdf VIP
- 曙光备份系统软件指南NetVault.pdf VIP
- 2024年青岛自招物理试题.docx VIP
- 2024年初中八年级下册名著《经典常谈》重点知识+内容概括+真题练习.pdf VIP
- 2025年八年级语文下册必读名著阅读《经典常谈》重点知识+内容概括+真题练习.docx VIP
原创力文档

文档评论(0)