- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于ECAPA-TDNN网络改进的说话人确认
方法
作者:张家良张强
来源:《电脑知识与技术》2024年第01期
关键词:说话人确认;语音特征;ECAPA-TDNN;感受野;多尺度特征
引言0
说话人确认技术是判断某段测试语音是否来自所给定的说话人,是“一对一”的判别问题。
该技术已经应用于许多实际的领域,如智能家居、金融安全、刑侦破案等。近10年来,说话
人确认技术得益于深度神经网络(DeepNeuralNetwork,DNN)强大的学习能力得到了快速
发展。
鉴于DNN强大的特征提取能力,在说话人确认领域已经广泛应用。2014年,Variani[1]等
人基于DNN的基础上,提出了一种具有帧级别说话人聲学特征的模型,将训练好的DNN从
最后一个隐藏层提取的说话人特定特征的平均值作为说话人的模型,称为d-vector。相对于i-
vector[2],d-vector在小规模文本相关的说话人确认任务上有着更好的性能。由于d-vector只能
提取帧级别的特征,Snyder[3]等人提出了x-vector,其主要利用多层时延神经网络结构(Time-
delayNeuralNet⁃work,TDNN)和统计池化层,将帧级别的输入特征转化为句子级别的特征
表达。此外,杨宇奇[4]还在TDNN的基础上建立多分支聚合TDNN网络的方式来提取说话人
的嵌入特征。
近年来,研究者开始将卷积神经网络应用到说话人确认领域。Nagrani[5]基于循环神经网
络提出了VG⁃GVox模型。在残差网络(ResidualNetworks,ResNet)[6]的基础上,Chung[7]
等人提出ResNetSE34L,ResNe⁃tSE34V2模型,采用不同尺度的卷积核提升多尺度特征的表
达能力。此外,Desplanques等人[8]还在基于TDNN的x-vector架构上,提出了ECAPA-
TDNN模型,采用引入SE-Net[9]模块、通道注意机制和多层特征融合等增强方法,进一步扩
展时间上下文,该模型已成为说话人确认领域最优秀的框架之一。
尽管当前大部分说话人确认网络都采用了更深、更复杂的网络结构来提升特征提取能力,
但这也导致模型的参数和推理时间倍增。鉴于此,本文提出一种改进的ECAPA-TDNN模型,
采用VoxCeleb1公开数据集进行实验,结果表明,相对于原模型,在说话人特征提取能力方面
实现了明显提升。
相关工作1
1.1ECAPA-TDNN模型
ECAPA-TDNN是一种基于音频信号的说话人识别模型。模型如图1所示,该模型参数包
括T、C、K、d和S,分别代表输入的音框数目、卷积通道数目、卷积核大小、空洞卷积扩张
率和说话人数目。在本系统中,T为300个frame的固定值,C为512,S为训练数据集的说话
人数目。输入特征为80维的说话人特征向量乘T,输入后经过Conv1D+Relu+BN层处理,紧
接着是三层1D的挤压激励的Res2Block(SE-Res2Block),这些层采用不同的空洞扩张率,
分别为2、3、4。接下来一层是Cov1D+Relu,将不同扩张率的SE-Res2Block输出进行结合,
形成多层特征融合(MFA)。再经过At⁃tentiveStatisticalPooling(ASP)层,进行加权平均
值和加权标准差聚合后进行池化,最后通过全连接层,生成192维的说话人特征向量。最后一
层采用AAMSoftmax算法进行分类,将192维度的说话人嵌入向量进行分类,输出数据集训练
的说话人数目。
提高1.2模型嵌入向量维度
在ECAPA-TDNN模型中,通过将嵌入向量的维度从原本192维调整至512维度,可以更
准确地捕捉和识别不同说话者之间的语音差别,从而提升模型的准确性。具体来说,说话人的
特征在低维度下可能会变得模糊或失真,而高维度的嵌入可以更好地保留这些特征。此外,在
进行分类任务时,使用高维度的嵌入还可以提高模型对于训练数据特征的拟合能力,从而得到
更好的分类效果。
改1.
您可能关注的文档
最近下载
- 第4课 古代诗歌四首(分层作业)七年级语文上册同步高效课堂(统编版2024)(解析版).docx VIP
- 北京市西城区2022-2023学年六年级上学期数学期末试卷(含答案).docx VIP
- excel2007vba控件属性大全.pdf
- 30题纪检监察位岗位常见面试问题含HR问题考察点及参考回答.docx VIP
- 医院静脉治疗横断面调研结果分析报告.ppt
- 《中国石拱桥》测试题.doc VIP
- 数值分析智慧树知到期末考试答案章节答案2024年长安大学.docx
- 大学mooc英语文学导论(湖南师范大学)章节测验期末考试答案.docx
- 国际公法选择题大全.pdf VIP
- 金田变频器386S恒压供水专用变频器说明书V1.06.pdf
文档评论(0)