离散最优传输是一种强大的音频对抗攻击.pdfVIP

  • 0
  • 0
  • 约2.06万字
  • 约 6页
  • 2026-02-27 发布于北京
  • 举报

离散最优传输是一种强大的音频对抗攻击.pdf

离散最优传输是一种强大的音频对抗攻击

A.Selitskiy,A.Shahriyar,andJ.Prakasan

UniversityofRochester,RochesterInstituteofTechnology

ABSTRACT

在本文中,我们展示了离散最优传输(DOT)是一种

有效的黑箱对抗性攻击,针对现代音频防欺骗对策

(CM)。我们的攻击操作作为后处理、分布对齐步骤:生

本成语音的帧级WavLM嵌入通过熵OT和top-巴氏

译投影与一个不配对的真实池对齐,然后使用神经声码

中器进行解码。在AASIST基准测试上的ASVspoof2019

和ASVspoof5数据集上评估DOT,在各个数据集中持

1

v续产生高等错误率(EER),并在CM微调后仍保持竞

9Fig.1.离散OT对抗攻击系统概述。

5争力,并且优于几种传统的跨数据集传输攻击。消融

训练和评估欺骗CMs。在现代CMs中,AASIST系

9分析突显了声码器重叠的实际影响。结果表明,分布

4统[9]及其修改版本利用频谱-时间图注意力来捕捉多

1级对齐是对部署的CM的一种强大且稳定的攻击面。

.种欺骗伪影,并已成为深度伪造/反欺骗检测的强基

9IndexTerms—最优传输,对抗攻击,ASVspoof

0线。尽管取得了这些进展,跨数据集和生成模型的可

5

2转移性仍然是一个开放挑战。

:1.介绍

v我们研究基于离散OT的语音转换是否是针对最

i

x基于向量嵌入的语音转换(VC)使用WavLM模先进的CM的一种强大黑箱攻击(图1)。我们的方

r

a型[1]从嵌入空间中的一个简单的-最近邻(NN)映法通过熵DOT和余弦成本将WavLM帧嵌入对齐到

射开始[2]。后续工作用最优传输(OT)替换了NN,一个未配对的真实样本池中,应用前巴ary中心映

改进了源分布与真实目标分布之间的对齐,并提升了射,并使用神经声码器进行重建。与梯度攻击不同,

转换质量[3,4]。特别是最近在生成的音频上应用了带DOT诱导了一个朝向真实区域的分布移位,使得在不

有重心投影的离散OT(DOT)作为后处理域对齐步需CM内部信息的情况下实现跨数据集迁移。我们的

骤,即使是在强反制措施(CMs)下,也得到了接近贡献:

真实录音的成绩[4]。类似地,在反欺骗中的分布对比•DOT作为对抗攻击。我们将离散OT+重心投

方面,也在防御方面探索了OT的应用[5]。影VC形式化为一个黑盒,分布对齐攻击。

大量研究表明,自动语音识别(ASR)和说话

人验证(ASV)管道易受对抗性示例的影响,包括•传输和微调鲁棒性。DOT在ASVspoof2019和

基于优化的攻击如[6](另见[7,section7])。同时,ASVspoof5数据集上保持强大,并且在CM微

ASVspoof挑战赛建立了标准化的数据集和协议(例调后仍具有竞争力,超越了几种传统攻击。

文档评论(0)

1亿VIP精品文档

相关文档