礼品: 梯度感知免疫的扩散模型对抗恶意微调防御并保留安全概念-计算机科学-机器学习-文本到图像-人工智能安全.pdfVIP

礼品: 梯度感知免疫的扩散模型对抗恶意微调防御并保留安全概念-计算机科学-机器学习-文本到图像-人工智能安全.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

礼品:梯度感知免疫

的扩散模型对抗恶意微调防御并保留安全概念

AmroAbdalla1IsmailShaheen1DanDeGenaro1RupayanMallick1

BogdanRait2SarahAdelBargal1

,

1DepartmentofComputerScience,GeorgetownUniversity

2DepartmentofMathematicsandStatistics,GeorgetownUniversity

{aaa654,ias68,drd92,rupayan.mallick,br607,sarah.bargal}@

中摘要

1我们提出了GIFT:一种G梯度感知的I免疫技术,用于防御扩散模型在对抗恶意F线-T

v调时的能力,同时保持其生成安全内容的能力。现有的安全机制如安全检查器很容易被绕过,概

8

9念擦除方法在对抗微调下也失败了。GIFT通过将免疫视为一个双层优化问题来解决这个问题:

5上层目标使用表示噪声和最大化削弱模型表达有害概念的能力,而下层目标则保持对安全数据

3

1的性能。GIFT实现了对抗恶意微调的强大抵抗力,同时维持了生成的安全质量。实验结果表

.

7明,我们的方法显著损害了模型重新学习有害概念的能力,同时在安全内容上的表现得以保持,

0

5为创建固有的更安全、能够抵抗对抗性微调攻击的生成模型提供了一个有前景的方向。

2警告:本文包含不适宜公开的内容。读者请自斟酌。

:

v

i

x

r1介绍

a

文本到图像(T2I)模型作为强大的生成工具,能够产生与输入提示[22,19,12,20]相符的高质

量图像。然而,它们的易用性和适应性使得它们容易受到恶意微调的影响,在这种情况下,对手可

以将预训练模型调整为生成有害或受版权保护的内容。像DreamBooth[24]、LoRA[11]和文本反转

[5]等方法能够使用最少的资源进行此类调整,并且无需从头开始训练。即使现有的安全机制,如安

全性检查器[21]或概念擦除方法[6,7,9]存在时,这种漏洞仍然存在,因为它们可以通过轻量级适

应技术绕过、禁用或撤销[32,36,8]。这带来了显著的风险:一旦模型开源,就很难保证它继续符

合安全目标。当前的防御措施要么降低模型的生成能力,要么无法抵御对抗性微调。

虽然安全检查器和许可协议提供了第一道防线[3],但它们并不是T2I模型的固有属性,而且很

容易被绕过[21]。为了增强T2I模型的内在安全性,提出了概念擦除技术来通过修改模型的内部表

示来移除不希望的概念。尽管这些技术可以抑制不期望概念的生成,但它们容易受到规避[18,36]

的影响。此外,正如我们在实验中所展示的那样,简单的微调可以重新引入被擦除的概念,从而削

弱概念擦除方法作为安全机制的长期有效性。

1

为了解决概念擦除的局限性并防御其规避,提出了模型免疫作为一种针对T2I模型恶意微调的

主动防御。例如,IMMA[37]引入了一种受MAML[4]启发的双层优化方法,旨在学习阻碍适应

不良概念的较差模型初始化。通过在免疫过程中模拟微调过程,IMMA使对手更难通过微调重新引

入有害内容。然而,正如我们将在实验中展示的那样,IMMA框架显著损害了模型对安全概念的表

现,降低了其生成质量和为良性应用进行微调的能力。

为此,我们提出了礼物—

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档