离散最优传输是一种强大的音频对抗攻击.pdfVIP

下载本文档

0
0
约2.06万字
约 6页
2026-02-27 发布于北京
举报

离散最优传输是一种强大的音频对抗攻击.pdf

离散最优传输是一种强大的音频对抗攻击

A.Selitskiy,A.Shahriyar,andJ.Prakasan

UniversityofRochester,RochesterInstituteofTechnology

ABSTRACT

在本文中，我们展示了离散最优传输（DOT）是一种

有效的黑箱对抗性攻击，针对现代音频防欺骗对策

（CM）。我们的攻击操作作为后处理、分布对齐步骤：生

本成语音的帧级WavLM嵌入通过熵OT和top-巴氏

译投影与一个不配对的真实池对齐，然后使用神经声码

中器进行解码。在AASIST基准测试上的ASVspoof2019

和ASVspoof5数据集上评估DOT，在各个数据集中持

v续产生高等错误率（EER），并在CM微调后仍保持竞

9Fig.1.离散OT对抗攻击系统概述。

5争力，并且优于几种传统的跨数据集传输攻击。消融

训练和评估欺骗CMs。在现代CMs中，AASIST系

9分析突显了声码器重叠的实际影响。结果表明，分布

4统[9]及其修改版本利用频谱-时间图注意力来捕捉多

1级对齐是对部署的CM的一种强大且稳定的攻击面。

.种欺骗伪影，并已成为深度伪造/反欺骗检测的强基

9IndexTerms—最优传输，对抗攻击，ASVspoof

0线。尽管取得了这些进展，跨数据集和生成模型的可

2转移性仍然是一个开放挑战。

:1.介绍

v我们研究基于离散OT的语音转换是否是针对最

x基于向量嵌入的语音转换（VC）使用WavLM模先进的CM的一种强大黑箱攻击（图1）。我们的方

a型[1]从嵌入空间中的一个简单的-最近邻（NN）映法通过熵DOT和余弦成本将WavLM帧嵌入对齐到

射开始[2]。后续工作用最优传输（OT）替换了NN，一个未配对的真实样本池中，应用前巴ary中心映

改进了源分布与真实目标分布之间的对齐，并提升了射，并使用神经声码器进行重建。与梯度攻击不同，

转换质量[3,4]。特别是最近在生成的音频上应用了带DOT诱导了一个朝向真实区域的分布移位，使得在不

有重心投影的离散OT（DOT）作为后处理域对齐步需CM内部信息的情况下实现跨数据集迁移。我们的

骤，即使是在强反制措施（CMs）下，也得到了接近贡献：

真实录音的成绩[4]。类似地，在反欺骗中的分布对比•DOT作为对抗攻击。我们将离散OT+重心投

方面，也在防御方面探索了OT的应用[5]。影VC形式化为一个黑盒，分布对齐攻击。

大量研究表明，自动语音识别（ASR）和说话

人验证（ASV）管道易受对抗性示例的影响，包括•传输和微调鲁棒性。DOT在ASVspoof2019和

基于优化的攻击如[6]（另见[7,section7]）。同时，ASVspoof5数据集上保持强大，并且在CM微

ASVspoof挑战赛建立了标准化的数据集和协议（例调后仍具有竞争力，超越了几种传统攻击。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

离散最优传输是一种强大的音频对抗攻击.pdfVIP