- 0
- 0
- 约11.39万字
- 约 31页
- 2026-03-16 发布于广东
- 举报
第9卷第5期信息安全学报Vol.9No.5
2024年9月JournalofCyberSecuritySep.2024
面向大语言模型的越狱攻击与防御综述
1,234155
梁思源,何英哲,刘艾杉,李京知,代朋纹,操晓春
1中国科学信息工程研究所信息安全重点实验室北京中国100093
2新加坡国立大学新加坡新加坡117422
3华为北京研究所北京中国100095
4北京航空航天大学北京中国100191
5中山大学深圳中国518100
摘要大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建
的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部
结构及安全机制的情况下,通过设计特定的提示语句引发模型生成不恰当的内容。相关领域的专业研究者在分析LLMs的潜在
脆弱性后,甚至可以产生人类难以发现,并且越狱成功率极高的自动化越狱攻击方法。为了阻止LLMs的恶意越狱攻击,研究者
们提出覆盖LLMs训练到部署全生命周期的防御方法以加强模型的安全性。然而,目前对于大语言模型的综述工作主要集中在
越狱攻击方法,并且没有对这些技术手段的特性及关系进行详细分析。此外,对评测基准总结的忽视也限制了该领域的蓬勃发
展。因此,本文拟对现有的越狱攻击与防御方法进行全面的回顾。具体而言,我们首先介绍了大语言模型与越狱攻击的相关概
念及原理,解释了越狱攻击在模型安全领域的重要性和它对大型语言模型的潜在威胁。接着,从攻击的生成策略回顾了现有的
越狱攻击方法,并分析了他们的优缺点,如这些攻击策略如何利用模型的漏洞来实现攻击目标。然后,本文总结了围绕LLMs
各个阶段的防御策略,并提供了一个全面的评测基准,详细介绍了如何评估这些防御策略的有效性。最后结合当前面临的挑战,
我们对LLMs越狱攻防的未来研究方向进行了总结和展望,指出了未来研究中需要关注的关键问题和潜在的研究方向,以促进
大模型的安全与可靠性发展。
关键词越狱攻击;越狱防御;大语言模型;深度学习;可信人工智能
中图法分类号TP391DOI号10.19363/J.10-1380/tn.2024.09.01
AReviewofJailbreakAttacksandDefensesforLarge
LanguageModels
1,234
最近下载
- 《左传烛之武退秦师》测试题带答案.pdf VIP
- 叶蜚声 徐通锵著《语言学纲要》WORD电子版.doc VIP
- 【精通版】五年级英语下册教学课件-【Lesson 10】.pptx VIP
- 中建中学改扩建绿色建造施工水平评价汇报(65页).pdf VIP
- 病人手术中低体温的预防及护理.doc VIP
- 2025年山东省高密市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库附答案.docx VIP
- SY T-6285-2011 油气储层评价方法.pdf VIP
- (完整版)微观经济学习题第二章供求理论 .pdf VIP
- 2025年北京电子科技职业学院单招笔试职业能力测验试题库含答案解析(5套卷).docx VIP
- DB43_T 330-2007_西瓜嫁接技术规范.pdf VIP
原创力文档

文档评论(0)