网站大量收购独家精品文档,联系QQ:2885784924

单词级文本对抗攻击-程瑶.pdf

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

BeijingForestStudio

ThenameoftheDepartment

北京理工大学信息系统及安全对抗实验中心

部门名称

单词级文本对抗攻击

硕士研究生程瑶

2023年05月28日

内容提要

•背景简介

•基础概念

–对抗样本

–文本对抗攻击

–开源工具TextAttack、OpenAttack

•算法原理

–Word-LevelAttack(WLTAACO)

–CLARE

•应用总结

•参考文献

2

背景简介

•预期收获

–1.了解对抗攻击的背景和基本原理

–2.理解文本对抗攻击的方法和难点

–3.理解文本对抗攻击的应用

–4.了解文本对抗攻击的前沿发展

3

背景简介文本对抗、问题导入

•智能系统中的便利、漏洞和缺陷阿里云-天池-安全AI挑战者计划

–案例1:敏感词屏蔽第三期-文本分类对抗攻击

•社交网络中存在辱骂等敏感词汇,需要使用语言模型定位

并“和谐”敏感词,维护网络秩序

•使用文本对抗技术可以欺骗语言模型,使其错误决策,以

此绕过敏感词检测,不影响辱骂性质

–案例2:电子邮件中的漏洞

•垃圾邮件制造者在一封邮件里隐藏了很多复合附件,可XXXXXX

Gmail只会显示最后一个附件,以此获得可靠域,逃过检测

4

背景简介对抗样本攻击

•思维导图:

5

背景简介对抗样本攻击

•对抗样本攻击:文本or图像

–差异

•由于图像是近似连续的数据(图像像素值是0-255的整数值),但文本是离散数据

•图像扰动:对像素值添加微小改变就可以造成图像的扰动,并且很难被人眼察觉

•文本扰动:小扰动易被察觉,人类能猜出来原本表达的意义

–实例

•假设有一个one-hot编码为(00001)表示的是“道”字,那么改变一位的编码

(00011)表示的字和“道”字不存在连续性

离散VS连续

易感知VS不易感知

–参考学术报告(图像对抗攻击)

富有语义VS无语义

•组合对抗攻击的自动化搜索方法-关迎丹-2021.05.06

•特定安全攻防场景中的对抗样本生成方法-张荣倩-2021.07.26

•深度神经网络后门攻击-韩飞-2021.08.15

文档评论(0)

说明书文档库 + 关注
实名认证
内容提供者

提供说明书查找服务。

1亿VIP精品文档

相关文档