《DNN解释算法的攻击与防御课题的研究现状文献综述》2800字.docxVIP

  • 0
  • 0
  • 约6.04千字
  • 约 4页
  • 2026-06-30 发布于湖北
  • 举报

《DNN解释算法的攻击与防御课题的研究现状文献综述》2800字.docx

DNN解释算法的攻击与防御课题的研究现状文献综述

1.1对DNN解释算法的攻击研究现状

在神经网络模型取得巨大成功的同时,也对DNN解释算法的合理性进行了检验。虽然解释算法的研究越来越受关注,但是不一定都可以取得满意的效果,因此对解释算法的检验方面的研究在近些年逐渐涌现。目前对解释算法的攻击可以分为两大类:改变模型[4,5,6,11,12],改变输入样本[13,14,16,17,19]。本文提出的攻击方法属于第二种。

改变模型攻击解释,也可以分为两类:更新模型权重,完全构造一个操纵模型。更新模型权重是在原始模型的架构上,只涉及对权重的迭代更新。2018年,Adebayo等[4]受统计随机化检验的启发,在NIPS会议上提出了对模型参数或训练标签随机化,开发了简单的测试来检查解释算法的稳定性,表明解释可以通过随机化部分网络权值而改变。2019年,Heo等[5]在NIPS会议中提出对抗性的模型微调,在不损害原始模型准确性的同时,并使用该调整后的模型引导可视化解释热图偏向于特定区域。但是由于是对模型进行了微调,因此需要对模型权重进行重训练,这个过程需要大量的数据进行重训练,需要很长的运算时间,且由于在重训练过程中往往需要对一些参数进行人为的调整,因此进一步消耗了时间,攻击的成本比较高。在2020年,Lakkaraju等[6]发表了攻击解释的另一工作,具体是基于MUSE[7]模型提出了一

文档评论(0)

1亿VIP精品文档

相关文档