礼品: 梯度感知免疫的扩散模型对抗恶意微调防御并保留安全概念-计算机科学-机器学习-文本到图像-人工智能安全.pdfVIP

下载本文档

0
0
约4.46万字
约 17页
2025-07-28 发布于中国
举报
版权申诉

礼品: 梯度感知免疫的扩散模型对抗恶意微调防御并保留安全概念-计算机科学-机器学习-文本到图像-人工智能安全.pdf

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

礼品:梯度感知免疫

的扩散模型对抗恶意微调防御并保留安全概念

AmroAbdalla1IsmailShaheen1DanDeGenaro1RupayanMallick1

BogdanRait2SarahAdelBargal1

1DepartmentofComputerScience,GeorgetownUniversity

2DepartmentofMathematicsandStatistics,GeorgetownUniversity

{aaa654,ias68,drd92,rupayan.mallick,br607,sarah.bargal}@

本

译

中摘要

1我们提出了GIFT：一种G梯度感知的I免疫技术，用于防御扩散模型在对抗恶意F线-T

v调时的能力，同时保持其生成安全内容的能力。现有的安全机制如安全检查器很容易被绕过，概

9念擦除方法在对抗微调下也失败了。GIFT通过将免疫视为一个双层优化问题来解决这个问题：

5上层目标使用表示噪声和最大化削弱模型表达有害概念的能力，而下层目标则保持对安全数据

1的性能。GIFT实现了对抗恶意微调的强大抵抗力，同时维持了生成的安全质量。实验结果表

7明，我们的方法显著损害了模型重新学习有害概念的能力，同时在安全内容上的表现得以保持，

5为创建固有的更安全、能够抵抗对抗性微调攻击的生成模型提供了一个有前景的方向。

2警告：本文包含不适宜公开的内容。读者请自斟酌。

r1介绍

文本到图像（T2I）模型作为强大的生成工具，能够产生与输入提示[22,19,12,20]相符的高质

量图像。然而，它们的易用性和适应性使得它们容易受到恶意微调的影响，在这种情况下，对手可

以将预训练模型调整为生成有害或受版权保护的内容。像DreamBooth[24]、LoRA[11]和文本反转

[5]等方法能够使用最少的资源进行此类调整，并且无需从头开始训练。即使现有的安全机制，如安

全性检查器[21]或概念擦除方法[6,7,9]存在时，这种漏洞仍然存在，因为它们可以通过轻量级适

应技术绕过、禁用或撤销[32,36,8]。这带来了显著的风险：一旦模型开源，就很难保证它继续符

合安全目标。当前的防御措施要么降低模型的生成能力，要么无法抵御对抗性微调。

虽然安全检查器和许可协议提供了第一道防线[3]，但它们并不是T2I模型的固有属性，而且很

容易被绕过[21]。为了增强T2I模型的内在安全性，提出了概念擦除技术来通过修改模型的内部表

示来移除不希望的概念。尽管这些技术可以抑制不期望概念的生成，但它们容易受到规避[18,36]

的影响。此外，正如我们在实验中所展示的那样，简单的微调可以重新引入被擦除的概念，从而削

弱概念擦除方法作为安全机制的长期有效性。

为了解决概念擦除的局限性并防御其规避，提出了模型免疫作为一种针对T2I模型恶意微调的

主动防御。例如，IMMA[37]引入了一种受MAML[4]启发的双层优化方法，旨在学习阻碍适应

不良概念的较差模型初始化。通过在免疫过程中模拟微调过程，IMMA使对手更难通过微调重新引

入有害内容。然而，正如我们将在实验中展示的那样，IMMA框架显著损害了模型对安全概念的表

现，降低了其生成质量和为良性应用进行微调的能力。

为此，我们提出了礼物—

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

礼品: 梯度感知免疫的扩散模型对抗恶意微调防御并保留安全概念-计算机科学-机器学习-文本到图像-人工智能安全.pdfVIP