单词级文本对抗攻击-程瑶.pdf

下载文档

0
0
约1.86万字
约 40页
2025-04-17 发布于山东
举报
版权申诉
保障服务

单词级文本对抗攻击-程瑶.pdf

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

BeijingForestStudio

ThenameoftheDepartment

北京理工大学信息系统及安全对抗实验中心

部门名称

单词级文本对抗攻击

硕士研究生程瑶

2023年05月28日

内容提要

•背景简介

•基础概念

–对抗样本

–文本对抗攻击

–开源工具TextAttack、OpenAttack

•算法原理

–Word-LevelAttack(WLTAACO)

–CLARE

•应用总结

•参考文献

背景简介

•预期收获

–1.了解对抗攻击的背景和基本原理

–2.理解文本对抗攻击的方法和难点

–3.理解文本对抗攻击的应用

–4.了解文本对抗攻击的前沿发展

背景简介文本对抗、问题导入

•智能系统中的便利、漏洞和缺陷阿里云-天池-安全AI挑战者计划

–案例1：敏感词屏蔽第三期-文本分类对抗攻击

•社交网络中存在辱骂等敏感词汇，需要使用语言模型定位

并“和谐”敏感词，维护网络秩序

•使用文本对抗技术可以欺骗语言模型，使其错误决策，以

此绕过敏感词检测，不影响辱骂性质

–案例2：电子邮件中的漏洞

•垃圾邮件制造者在一封邮件里隐藏了很多复合附件，可XXXXXX

Gmail只会显示最后一个附件，以此获得可靠域，逃过检测

背景简介对抗样本攻击

•思维导图：

背景简介对抗样本攻击

•对抗样本攻击：文本or图像

–差异

•由于图像是近似连续的数据（图像像素值是0-255的整数值），但文本是离散数据

•图像扰动：对像素值添加微小改变就可以造成图像的扰动，并且很难被人眼察觉

•文本扰动：小扰动易被察觉，人类能猜出来原本表达的意义

–实例

•假设有一个one-hot编码为（00001）表示的是“道”字，那么改变一位的编码

（00011）表示的字和“道”字不存在连续性

离散VS连续

易感知VS不易感知

–参考学术报告（图像对抗攻击）

富有语义VS无语义

•组合对抗攻击的自动化搜索方法-关迎丹-2021.05.06

•特定安全攻防场景中的对抗样本生成方法-张荣倩-2021.07.26

•深度神经网络后门攻击-韩飞-2021.08.15

您可能关注的文档

文档评论（0）

说明书文档库 + 关注: 实名认证

内容提供者

提供说明书查找服务。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

单词级文本对抗攻击-程瑶.pdf