基于关联性学习的说话人识别方法.pdfVIP

下载本文档

1
0
约11.28万字
约 57页
2025-06-11 发布于广东
举报

基于关联性学习的说话人识别方法.pdf

基于关联性学习的说话人识别方法研究

摘要

随着人工智能技术的迅速发展，传统身份认证技术已经不能满足人们对现代

身份认证的需求，生物特征识别技术逐渐应用于各个领域。生物特征识别技术对

身份的认证与鉴定主要通过验证个体独有的行为特征或生理特征，其中，说话人

识别技术兼顾两种特征，因此成为近年来的研究热点。但现有的说话人识别技术

不论基于传统方法还是深度学习方法，在实际应用中仍存在一些问题。基于传统

方法的说话人识别技术太过关注独立优化各个模块，从而导致忽略每个模块之间

的关联性；基于深度学习方法的说话人识别技术将重点放在帧级或语句级特征的

分类，从而疏忽两种特征间的联系，也轻视了帧级特征中各个帧之间的关联性。

本文针对这些问题，从字典与分类器关联性和特征关联性两个方面分别进行研究，

并取得较好的实验性能，具体研究内容如下：

（1）在传统机器学习方法方面，提出了一种基于联合字典学习的说话人识别

方法。考虑到机器学习应用于说话人识别任务时一般会独立地优化各个模块，但

模块之间必然存在一定的联系，因此提出了一种将各个模块进行联合学习的优化

方法。该方法引入的区分性字典学习与分类器可以有效解决上述问题，并提高字

典重构与稀疏系数的精度。在更新字典时，由于引入的分类器中包含类别信息，

因此其优化目标更为明确，学习到的字典区分性也有大幅提升。在对说话人字典

生成与训练算法改进的基础上，该方法还引入了噪声字典，在线学习噪声字典能

够同时考虑时变噪声，从而提升说话人识别系统在噪声环境下的识别准确率。实

验结果表明，该方法能够有效解决独立优化各个模块引起的识别性能不佳的问题，

并在噪声下具有较强的鲁棒性。

（2）在深度学习方面，提出了一种基于相邻帧关联性学习的说话人识别方法，

该方法从长时掩码学习与短时关联性学习两方面进行研究。考虑到现有方法主要

通过使用大规模训练数据来提高说话人语句级特征的精确度，但不同数据与说话

人的关联性也不相同，如果特征将这些与说话人关联性弱的数据也包含在内，反

而会导致模型的过拟合。因此本方法通过长时掩码学习引入基于自注意力网络的

掩码层，并提出一种选择掩码值的函数，利用自注意力网络学习到的权重与对应

信息的关联性对特征包含的信息进行筛选，以防止冗余信息引起的过拟合。同时，

考虑到仅使用基于语句级特征的损失函数优化模型存在一定局限性，因此在短时

关联性学习中，根据帧级语音的短时平滑特性，即相邻帧之间差异必然不会太大

的特点，提出一种面向帧级特征的损失函数。该损失函数利用目标帧与其前后几

-I-

帧的关联性，可用作正则项与语句级特征的损失函数共同指导上游模型参数的学

习，从帧级与语句级两个层面优化模型参数。实验结果表明，与其他方法相比，

基于相邻帧关联性的说话人识别方法具有更好的性能。

关键词说话人识别；关联性学习；字典学习；掩码学习

-II-

ResearchonSpeakerRecognitionBasedon

CorrelationLearning

Abstract

Withtherapiddevelopmentofartificialintelligencetechnology,traditionalidentity

authenticationtechnologycannotsatisfypeoplesneedsformodernidentity

authentication,andbiometricrecognitiontechnologyhasbeenappliedinvariousfields

gradually.Biometricrecognitiontechnologycanbeusedforidentityauthentication

whichbasedonindividualsuniquebehavioral

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于关联性学习的说话人识别方法.pdfVIP