《DNN解释算法的攻击与防御课题的研究现状文献综述》2800字.docxVIP

下载本文档

0
0
约6.04千字
约 4页
2026-06-30 发布于湖北
举报

《DNN解释算法的攻击与防御课题的研究现状文献综述》2800字.docx

DNN解释算法的攻击与防御课题的研究现状文献综述

1.1对DNN解释算法的攻击研究现状

在神经网络模型取得巨大成功的同时，也对DNN解释算法的合理性进行了检验。虽然解释算法的研究越来越受关注，但是不一定都可以取得满意的效果，因此对解释算法的检验方面的研究在近些年逐渐涌现。目前对解释算法的攻击可以分为两大类：改变模型[4,5,6,11,12]，改变输入样本[13,14,16,17,19]。本文提出的攻击方法属于第二种。

改变模型攻击解释，也可以分为两类：更新模型权重，完全构造一个操纵模型。更新模型权重是在原始模型的架构上，只涉及对权重的迭代更新。2018年，Adebayo等[4]受统计随机化检验的启发，在NIPS会议上提出了对模型参数或训练标签随机化，开发了简单的测试来检查解释算法的稳定性，表明解释可以通过随机化部分网络权值而改变。2019年，Heo等[5]在NIPS会议中提出对抗性的模型微调，在不损害原始模型准确性的同时，并使用该调整后的模型引导可视化解释热图偏向于特定区域。但是由于是对模型进行了微调，因此需要对模型权重进行重训练，这个过程需要大量的数据进行重训练，需要很长的运算时间，且由于在重训练过程中往往需要对一些参数进行人为的调整，因此进一步消耗了时间，攻击的成本比较高。在2020年，Lakkaraju等[6]发表了攻击解释的另一工作，具体是基于MUSE[7]模型提出了一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《DNN解释算法的攻击与防御课题的研究现状文献综述》2800字.docxVIP