面向大语言模型的越狱攻击与防御综述.pdfVIP

面向大语言模型的越狱攻击与防御综述.pdf

第9卷第5期信息安全学报Vol.9No.5

2024年9月JournalofCyberSecuritySep.2024

面向大语言模型的越狱攻击与防御综述

1,234155

梁思源,何英哲,刘艾杉,李京知,代朋纹,操晓春

1中国科学信息工程研究所信息安全重点实验室北京中国100093

2新加坡国立大学新加坡新加坡117422

3华为北京研究所北京中国100095

4北京航空航天大学北京中国100191

5中山大学深圳中国518100

摘要大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建

的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部

结构及安全机制的情况下,通过设计特定的提示语句引发模型生成不恰当的内容。相关领域的专业研究者在分析LLMs的潜在

脆弱性后,甚至可以产生人类难以发现,并且越狱成功率极高的自动化越狱攻击方法。为了阻止LLMs的恶意越狱攻击,研究者

们提出覆盖LLMs训练到部署全生命周期的防御方法以加强模型的安全性。然而,目前对于大语言模型的综述工作主要集中在

越狱攻击方法,并且没有对这些技术手段的特性及关系进行详细分析。此外,对评测基准总结的忽视也限制了该领域的蓬勃发

展。因此,本文拟对现有的越狱攻击与防御方法进行全面的回顾。具体而言,我们首先介绍了大语言模型与越狱攻击的相关概

念及原理,解释了越狱攻击在模型安全领域的重要性和它对大型语言模型的潜在威胁。接着,从攻击的生成策略回顾了现有的

越狱攻击方法,并分析了他们的优缺点,如这些攻击策略如何利用模型的漏洞来实现攻击目标。然后,本文总结了围绕LLMs

各个阶段的防御策略,并提供了一个全面的评测基准,详细介绍了如何评估这些防御策略的有效性。最后结合当前面临的挑战,

我们对LLMs越狱攻防的未来研究方向进行了总结和展望,指出了未来研究中需要关注的关键问题和潜在的研究方向,以促进

大模型的安全与可靠性发展。

关键词越狱攻击;越狱防御;大语言模型;深度学习;可信人工智能

中图法分类号TP391DOI号10.19363/J.10-1380/tn.2024.09.01

AReviewofJailbreakAttacksandDefensesforLarge

LanguageModels

1,234

更多 >