- 0
- 0
- 约2.06万字
- 约 6页
- 2026-02-27 发布于北京
- 举报
离散最优传输是一种强大的音频对抗攻击
A.Selitskiy,A.Shahriyar,andJ.Prakasan
UniversityofRochester,RochesterInstituteofTechnology
ABSTRACT
在本文中,我们展示了离散最优传输(DOT)是一种
有效的黑箱对抗性攻击,针对现代音频防欺骗对策
(CM)。我们的攻击操作作为后处理、分布对齐步骤:生
本成语音的帧级WavLM嵌入通过熵OT和top-巴氏
译投影与一个不配对的真实池对齐,然后使用神经声码
中器进行解码。在AASIST基准测试上的ASVspoof2019
和ASVspoof5数据集上评估DOT,在各个数据集中持
1
v续产生高等错误率(EER),并在CM微调后仍保持竞
9Fig.1.离散OT对抗攻击系统概述。
5争力,并且优于几种传统的跨数据集传输攻击。消融
训练和评估欺骗CMs。在现代CMs中,AASIST系
9分析突显了声码器重叠的实际影响。结果表明,分布
4统[9]及其修改版本利用频谱-时间图注意力来捕捉多
1级对齐是对部署的CM的一种强大且稳定的攻击面。
.种欺骗伪影,并已成为深度伪造/反欺骗检测的强基
9IndexTerms—最优传输,对抗攻击,ASVspoof
0线。尽管取得了这些进展,跨数据集和生成模型的可
5
2转移性仍然是一个开放挑战。
:1.介绍
v我们研究基于离散OT的语音转换是否是针对最
i
x基于向量嵌入的语音转换(VC)使用WavLM模先进的CM的一种强大黑箱攻击(图1)。我们的方
r
a型[1]从嵌入空间中的一个简单的-最近邻(NN)映法通过熵DOT和余弦成本将WavLM帧嵌入对齐到
射开始[2]。后续工作用最优传输(OT)替换了NN,一个未配对的真实样本池中,应用前巴ary中心映
改进了源分布与真实目标分布之间的对齐,并提升了射,并使用神经声码器进行重建。与梯度攻击不同,
转换质量[3,4]。特别是最近在生成的音频上应用了带DOT诱导了一个朝向真实区域的分布移位,使得在不
有重心投影的离散OT(DOT)作为后处理域对齐步需CM内部信息的情况下实现跨数据集迁移。我们的
骤,即使是在强反制措施(CMs)下,也得到了接近贡献:
真实录音的成绩[4]。类似地,在反欺骗中的分布对比•DOT作为对抗攻击。我们将离散OT+重心投
方面,也在防御方面探索了OT的应用[5]。影VC形式化为一个黑盒,分布对齐攻击。
大量研究表明,自动语音识别(ASR)和说话
人验证(ASV)管道易受对抗性示例的影响,包括•传输和微调鲁棒性。DOT在ASVspoof2019和
基于优化的攻击如[6](另见[7,section7])。同时,ASVspoof5数据集上保持强大,并且在CM微
ASVspoof挑战赛建立了标准化的数据集和协议(例调后仍具有竞争力,超越了几种传统攻击。
您可能关注的文档
最近下载
- 2025成都农商银行授信审查岗社会招聘15人笔试备考试题及答案解析.docx VIP
- 2025春统编版(2024)道德与法治一年级下册教学设计(附目录)(名师教案)表格版.docx VIP
- 《2026版CSCO卵巢癌诊疗指南》解读PPT课件.docx
- 大汉塔机QTZ80(6010)说明书.pdf VIP
- 2025成都农商银行授信审查岗社会招聘笔试备考试题及答案解析.docx VIP
- 变压器现场安装培训课件.pptx VIP
- 道岔转辙设备的运行与维护教案教学能力比赛.pdf
- 工作人员卫生状况监控记录食品公司.pdf VIP
- 维修电工培训培训教材.ppt VIP
- 绘本阅读在幼儿园主题活动中的实践研究.docx VIP
原创力文档

文档评论(0)