基于攻击方法和重放配置的得分融合在说话人确认反欺骗中的研究.pdfVIP

下载本文档

79
0
约9.58万字
约 66页
2020-08-22 发布于江苏
举报
版权申诉

基于攻击方法和重放配置的得分融合在说话人确认反欺骗中的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于攻击方法和重放配置的得分融合在说话人确认反欺骗中的研究摘要自动说话人确认技术（Automatic speakerverification，ASV）是生物识别技术的一种，通过说话人的语音信号自动确定该说话人的身份。在实际身份验证场景中，欺骗者通过语音转换、语音合成和录音重放就能得到与真实语音非常相似的欺骗语音。目前的ASV 系统很难检测到欺骗语音与真实语音之间的细微差别，欺骗语音可以轻松地通过ASV 系统，这对ASV 系统的安全性造成了严重的威胁。因此，近年来说话人确认反欺骗技术得到了越来越多的关注。本文主要对基于高斯混合模型（Gaussian Mixture Model，GMM）、i-vector 和轻量级卷积神经网络（Light Convolution Neural Network，LCNN）的说话人确认反欺骗模型在得分融合方面进行研究。为了提高说话人确认反欺骗模型的准确率和鲁棒性，本文提出在基于不同攻击方法和重放配置下分别对GMM 模型、 i-vector 模型和LCNN 模型进行不同模型的得分融合。本文实验均在ASVspoof 挑战数据集上进行，相关工作总结如下：首先，本文对基于不同攻击方法和重放配置的GMM 模型使用概率规整、线性回归和支持向量机（Support Vector Machine，SVM）进行得分融合。实验结果表明基于不同攻击方法和重放配置的GMM模型与SVM 得分融合后与基线GMM 模型相比，性能有显著的提高。其次，本文将概率线性判别分析（Probabilistic Linear Discriminant Analysis， PLDA）、SVM 和余弦距离模型作为i-vector 模型的后端，分别在i-vector 模型与基于不同攻击方法和重放配置的i-vector 模型上进行分析比较。实验结果表明基于SVM 的模型性能优于PLDA 和余弦距离。接着本文提出基于余弦距离打分的 i-vector 模型在不同攻击方法和重放配置中分别使用概率规整、线性回归和SVM 进行得分融合。实验结果表明，基于余弦距离打分的i-vector 模型和SVM 得分融合后性能有了进一步的提升。最后，本文提出将LCNN 模型全连接层的输出（Speaker Embedding）作为新的特征从而代替说话人确认反欺骗系统的i-vector，并使用PLDA、SVM 和余弦距离进行打分。实验结果表明基于不同攻击方法和重放配置的LCNN 模型使用SVM 打分后性能表现得最好。接着本文提出基于余弦距离打分的Embedding 在不同攻击方法和重放配置中分别采用概率规整、线性回归和SVM 进行得分融合，实验结果表明使用SVM 进行得分融合能进一步提高模型的性能。关键词: 说话人确认；得分融合；GMM 模型；i-vector 模型；LCNN 模型 I 硕士学位论文 Abstract Automatic speaker verification (ASV) is a belong to biometric technology, which automatically determines the identity of the speaker by his or her voice signal. In the actual authentication scenario, the fraudster uses speech conversion, speech synthesis algorithms or recording replay to obtain the spoofed speech that is very similar to the real speech. At present, it is difficult for ASV system to detect the subtle difference between spoofing and genuine speech. Spoofing speech can easily pass through A