- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
面向图像样本的后门攻击与防御关键技术研究
摘要
深度神经网络(DeepNeuralNetworks,DNN)已广泛应用于许多领域,并取得了先
进的成绩,尤其是在图像领域。然而,DNN的结构缺乏透明性和可解释性,这为恶意
攻击者提供了极大的潜在漏洞。攻击者可以利用这一特点在DNN结构中植入后门,使
得DNN可以同时学习正常的主任务和额外的恶意任务,从而进行后门攻击。在图像领
域,后门攻击可以通过在图像中插入一些不易被发现的特定像素,激活后门。此外,
DNN依赖于数据集进行训练,而攻击者可以篡改训练数据来干扰DNN的训练过程,
例如在输入数据中添加一个触发器以达到植入后门的目的。由于DNN结构和数据的固
有缺陷,后门攻击对DNN的安全构成了严重威胁,特别是一些对安全性要求较高的系
统,例如自动驾驶和人脸识别。这种后门攻击使得被攻击的DNN在正常输入上表现良
好,但在附加了触发器的输入上则输出攻击者指定的标签,因此检测这种攻击是非常
困难的。
目前大部分后门攻击都是在模型训练阶段实施,很少有后门攻击测试阶段的优化
方法。本文提出了一种针对模型测试阶段的后门优化方法。该方法基于扰动的思想生
成优化的后门样本,从而降低后门与良性样本在模型输出上和特征重要性解释之间的
差异,使其可以逃避基于差异的检测方法。此外,本文还提出了一种提高后门攻击隐
匿性的方法。实验结果表明,提出的优化方法可以有效地降低良性和后门样本在模型
输出上的差异,并改变模型中间层的显著图差异。
为了防御后门攻击,本文提出了一个新的防御框架——迭代自蒸馏(IterativeSelf-
Distillation,ISD),以擦除DNN中的后门。迭代自蒸馏通过在中毒神经网络的浅层上外
接若干个分类器作为学生网络,将浅层网络作为教师网络,执行迭代的自蒸馏,从而
获得模型性能和攻击成功率下降之间较好平衡的后门擦除模型。此外,为了提高中毒
模型在良性样本上的鲁棒性,还提出了迭代自蒸馏平均(IterativeSelf-Distillation
Averaging,ISDA)的方法,用于修复后门模型在主任务上受损的精度。实验表明,在
目前七种主流的后门攻击下,所提出的迭代自蒸馏防御方法,仅通过训练5%的良性样
本就能有效地消除后门触发器,同时还不会在模型主任务上造成明显的性能下降。
后门攻击与防御技术的出现反映了对抗机器学习领域中不断发展的整体趋势。攻
击者利用DNN的缺陷和漏洞来实现攻击,而防御者则需要深入了解攻击者的策略并弥
补DNN的缺陷来抵御这些攻击。在这个整体趋势中,攻击和防御是相互促进的,后门
防御技术的出现反映了对抗性机器学习领域中的理论完善和技术进步,同时也揭示了
哈尔滨工程大学硕士学位论文
机器学习安全领域的广阔前景和挑战。在这种背景下,攻防技术的进一步研究和发展
可以为我们提供更全面的安全保障,并推动深度学习的广泛应用和发展。
关键词:后门优化;自蒸馏;深度神经网络;后门攻击;后门防御
面向图像样本的后门攻击与防御关键技术研究
Abstract
DeepNeuralNetworks(DNNs)havebeenwidelyappliedinmanyfieldsandhaveachieved
advancedperformance,particularlyinthefieldofimageprocessing.However,thestructureof
DNNslackstransparencyandinterpretability,whichprovidessignificantpotential
vulnerabilitiesformaliciousattackers.Attackerscanexploitthischaracteristictoimplant
backdoorsintheDNNstructure,enabl
文档评论(0)