- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
礼品:梯度感知免疫
的扩散模型对抗恶意微调防御并保留安全概念
AmroAbdalla1IsmailShaheen1DanDeGenaro1RupayanMallick1
BogdanRait2SarahAdelBargal1
,
1DepartmentofComputerScience,GeorgetownUniversity
2DepartmentofMathematicsandStatistics,GeorgetownUniversity
{aaa654,ias68,drd92,rupayan.mallick,br607,sarah.bargal}@
本
译
中摘要
1我们提出了GIFT:一种G梯度感知的I免疫技术,用于防御扩散模型在对抗恶意F线-T
v调时的能力,同时保持其生成安全内容的能力。现有的安全机制如安全检查器很容易被绕过,概
8
9念擦除方法在对抗微调下也失败了。GIFT通过将免疫视为一个双层优化问题来解决这个问题:
5上层目标使用表示噪声和最大化削弱模型表达有害概念的能力,而下层目标则保持对安全数据
3
1的性能。GIFT实现了对抗恶意微调的强大抵抗力,同时维持了生成的安全质量。实验结果表
.
7明,我们的方法显著损害了模型重新学习有害概念的能力,同时在安全内容上的表现得以保持,
0
5为创建固有的更安全、能够抵抗对抗性微调攻击的生成模型提供了一个有前景的方向。
2警告:本文包含不适宜公开的内容。读者请自斟酌。
:
v
i
x
r1介绍
a
文本到图像(T2I)模型作为强大的生成工具,能够产生与输入提示[22,19,12,20]相符的高质
量图像。然而,它们的易用性和适应性使得它们容易受到恶意微调的影响,在这种情况下,对手可
以将预训练模型调整为生成有害或受版权保护的内容。像DreamBooth[24]、LoRA[11]和文本反转
[5]等方法能够使用最少的资源进行此类调整,并且无需从头开始训练。即使现有的安全机制,如安
全性检查器[21]或概念擦除方法[6,7,9]存在时,这种漏洞仍然存在,因为它们可以通过轻量级适
应技术绕过、禁用或撤销[32,36,8]。这带来了显著的风险:一旦模型开源,就很难保证它继续符
合安全目标。当前的防御措施要么降低模型的生成能力,要么无法抵御对抗性微调。
虽然安全检查器和许可协议提供了第一道防线[3],但它们并不是T2I模型的固有属性,而且很
容易被绕过[21]。为了增强T2I模型的内在安全性,提出了概念擦除技术来通过修改模型的内部表
示来移除不希望的概念。尽管这些技术可以抑制不期望概念的生成,但它们容易受到规避[18,36]
的影响。此外,正如我们在实验中所展示的那样,简单的微调可以重新引入被擦除的概念,从而削
弱概念擦除方法作为安全机制的长期有效性。
1
为了解决概念擦除的局限性并防御其规避,提出了模型免疫作为一种针对T2I模型恶意微调的
主动防御。例如,IMMA[37]引入了一种受MAML[4]启发的双层优化方法,旨在学习阻碍适应
不良概念的较差模型初始化。通过在免疫过程中模拟微调过程,IMMA使对手更难通过微调重新引
入有害内容。然而,正如我们将在实验中展示的那样,IMMA框架显著损害了模型对安全概念的表
现,降低了其生成质量和为良性应用进行微调的能力。
为此,我们提出了礼物—
您可能关注的文档
- 动态环境下的多智能体强化学习中的因果知识迁移-计算机科学-多智能体强化学习-因果关系-迁移.pdf
- 分而治之:一个大规模数据集和模型用于左右乳腺 MRI 分割-计算机科学-机器学习-医学图像分割.pdf
- 关于定向线图及相关矩阵的一些简短笔记-计算机科学-机器学习-算法.pdf
- 基于回归的方法估计蜘蛛恐惧症患者在行为回避任务中的焦虑程度-计算机科学-机器学习-可穿戴设备.pdf
- 局部化 FNO 在动脉瘤 MRI 中的时空血流动力学上采样-计算机科学-机器学习-脑血管诊断-医疗健康.pdf
- 高效且可扩展的元学习和依赖驱动恢复自愈数据库-计算机科学-元学习-异常检测-图神经网络-可解释人工智能.pdf
- 一个端到端的 DNN 推理框架用于 SpiNNaker2 神经形态 MPSoC-计算机科学-调度算法-深度学习-硬件加速-边缘人工智能.pdf
- 诗歌故事扩散: 在多阶段提示优化中最小化诗歌到图像生成的信息损失-计算机科学-文本到图像-扩散模型-人工智能.pdf
- 一致的解释者还是不可靠的叙述者?理解 LLM 生成的群组推荐-计算机科学-大语言模型-群组推荐系统.pdf
- 高斯核基运动测量-计算机科学-机器学习-健康监测.pdf
文档评论(0)