大语言模型越狱攻击-贺晨阳-2024.12.1.pdf

下载文档

0
0
约1.34万字
约 35页
2025-04-17 发布于山东
举报
版权申诉
保障服务

大语言模型越狱攻击-贺晨阳-2024.12.1.pdf

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

BeijingForestStudio

ThenameoftheDepartment

北京理工大学信息系统及安全对抗实验中心

部门名称

大语言模型的越狱攻击

硕士研究生贺晨阳

2024年12月1日

问题回溯

•相关内容

–2024.08.25张浩然《大模型赋能的模糊测试用例生成技术》

–2024.09.28刘洧光《人工智能模型的公平性测试》

–2024.11.24刘栋涵《利用大模型进行根因分析的方法》

内容提要

•预期收获

•内涵解析与研究目标

•研究背景与意义

•研究历史与现状

•知识基础

•算法原理

–EnDec

–ActorAttack

•特点总结与未来展望

•参考文献

预期收获

•预期收获

–掌握越狱攻击的基本概念、研究背景和意义

–了解越狱攻击的基本方法原理

–了解越狱攻击未来发展方向

内涵解析与研究目标

•研究目标

–利用大语言模型内部处理机制的漏洞，引导模型生成有害、不当甚至违法的内容

•题目内涵解析

–大语言模型：GPT等基于Transformer架构的大规模预训练语言模型，可应用于代

码生成、自然语言处理等任务

–越狱攻击：指通过精心设计的输入，绕过大语言模型的安全限制，诱导模型产生

违反其设计初衷或安全准则的输出

研究背景与意义

•研究背景

–大语言模型领域技术突破

•LLM在数学、语言、推理等多个领域都展现出接近甚至超越人类的能力水平

•LLM可能带来的社会风险与对人类的潜在威胁开始成为研究关注点

–大语言模型的风险与防护

•LLM生成的文本中可能包含偏见、歧视等有害内容，或生成带有误导性的虚假信息

•为应对风险，提出了基于监督微调SFT与使用人类反馈的强化学习RLHF等对齐技术

•对齐的主要目的是使LLM的输出符合人类用户的指令、偏好与价值观

•绕过甚至无效化LLM的安全机制，使得经过对齐的LLM输出有害内容成为研究方向

•研究意义

–探究新的攻击方法，及时发现新型威胁，并验证现有的防御机制效果

–以攻击促进防御，辅助设计更有效的防御机制，提高系统的鲁棒性

研究历史与现状

Li等人提出了名为DeepChao等人提出了名Wei等人评估了多种越狱攻Russinovich等人提出多

Inception的越狱攻击方法，为PAIR的攻击方法，击在绕过大语言模型安全轮攻击方法Crescendo，

创造多重场景以转移大模使用一个大模型作机制和诱发有害行为方面基于固定和人工制作的种

型注意力，在最后要求给为攻击模型迭代细的有效性并分析了影响越子实例逐渐将良

您可能关注的文档

文档评论（0）

说明书文档库 + 关注: 实名认证

内容提供者

提供说明书查找服务。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大语言模型越狱攻击-贺晨阳-2024.12.1.pdf