- 1
- 0
- 约2.25万字
- 约 7页
- 2025-10-13 发布于北京
- 举报
SCDF:用于偏见分析的说话人特征深度伪造
语音数据集
VojtěchStaněk,KarelSrna,AntonFirc,KamilMalinka
FacultyofInformationTechnology
BrnoUniversityofTechnology
Brno,CzechRepublic
istanek@fit.vut.cz,xsrnak00@stud.fit.vutbr.cz,ifirc@fit.vut.cz,malinka@fit.vut.cz
摘要—尽管深度伪造语音检测受到了越来越多的关注,但(SCDF)数据集,使系统能够对各种说话人的特征及
在语音领域中偏见和公平性方面的研究仍然不足。为了解决这一其如何影响检测器性能进行系统评估。使用这一新颖
本问题,我们引入了说话人特征深度伪造(SCDF)数据集:这是的概念验证数据集,我们分析了几种最先进的深度伪
一个新型的、注释丰富的资源,能够系统地评估深度伪造语音检
译造语音检测器,以识别与说话人人口统计相关的潜在
测中的人口统计学偏见。SCDF包含超过237,000条陈述,平
中衡呈现了男性和女性说话者,并涵盖了五种语言以及广泛的年龄偏见。SCDF数据集包含超过237,000条录音,总计
1范围。我们对几种最先进的检测器进行了评估,并表明说话人特超过500小时的语音。它涵盖了4种代表性的最先进
v
4征显著影响检测性能,揭示了性别、语言、年龄和合成器类型之合成器(XTTSv2[6],F5-TTS[7],OpenVoicev2[8],
4间的差异。这些发现强调了需要有意识地开发减少偏见的方法,DDDM-VC[9]),跨5种语言(捷克语、法语、英语、
9并为构建符合伦理和监管标准的非歧视性深度伪造检测系统奠德语、西班牙语)平衡分布,每种性别有25名说话人。
7
0定了基础。
8.IndexTerms—偏见,公平性,数据集,深度伪造语音,防我们的实验揭示了说话人特征对深度伪造检测器
0伪技术性能的影响,发现了现有的偏见,在没有如SCDF这样
5
2注释良好的评估数据集的情况下是无法进行这种分析
:I.介绍的。这些发现强调了需要具备偏见意识和非歧视性的深
v
i
x语音合成的迅速进步使得能够创建高度逼真的深度伪造检测系统。通过提供像SCDF数据集这样的丰富
r
a度伪造音频[1]。这些技术可以被用来绕过声纹识别系注释资源,这项工作为开发更强大、公平且无歧视的深
统[2],威胁到声纹安全性的完整性。为了对抗这些威度伪造检测器迈出了第一步,这与伦理人工智能原则和
胁,已经开发了一系列深度伪造语音检测器作为防御监管要求相一致。
机制。贡献。本文的主要贡献可概括如下:
然而,在语音深度伪造检测中,偏见和公平性的重
要方面仍然很大程度上未被探索,尤其是在与面部深度我们引入了SCDF——一个具有详细说话人特征和
伪造研究中这些问题所受到的关注相比时[3],[4]。这一元数据(性别、年龄、语言)的新颖深度伪造语音
疏忽在日益变得关键,因为公平透明的人工智能系统正数据集,作为系统偏见评估的重要初始资源。
成为实际需求,这由欧洲联盟的人工智能法案等法规推我们展示了现有的深度伪造语音检测器在不同说话
动[5]。该法规对生物识别系统及其组件(包括深度伪人的人口统计
原创力文档

文档评论(0)