网站大量收购闲置独家精品文档,联系QQ:2885784924

基于ECAPA-TDNN网络改进的说话人确认方法 .pdfVIP

基于ECAPA-TDNN网络改进的说话人确认方法 .pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于ECAPA-TDNN网络改进的说话人确认

方法

作者:张家良张强

来源:《电脑知识与技术》2024年第01期

关键词:说话人确认;语音特征;ECAPA-TDNN;感受野;多尺度特征

引言0

说话人确认技术是判断某段测试语音是否来自所给定的说话人,是“一对一”的判别问题。

该技术已经应用于许多实际的领域,如智能家居、金融安全、刑侦破案等。近10年来,说话

人确认技术得益于深度神经网络(DeepNeuralNetwork,DNN)强大的学习能力得到了快速

发展。

鉴于DNN强大的特征提取能力,在说话人确认领域已经广泛应用。2014年,Variani[1]等

人基于DNN的基础上,提出了一种具有帧级别说话人聲学特征的模型,将训练好的DNN从

最后一个隐藏层提取的说话人特定特征的平均值作为说话人的模型,称为d-vector。相对于i-

vector[2],d-vector在小规模文本相关的说话人确认任务上有着更好的性能。由于d-vector只能

提取帧级别的特征,Snyder[3]等人提出了x-vector,其主要利用多层时延神经网络结构(Time-

delayNeuralNet⁃work,TDNN)和统计池化层,将帧级别的输入特征转化为句子级别的特征

表达。此外,杨宇奇[4]还在TDNN的基础上建立多分支聚合TDNN网络的方式来提取说话人

的嵌入特征。

近年来,研究者开始将卷积神经网络应用到说话人确认领域。Nagrani[5]基于循环神经网

络提出了VG⁃GVox模型。在残差网络(ResidualNetworks,ResNet)[6]的基础上,Chung[7]

等人提出ResNetSE34L,ResNe⁃tSE34V2模型,采用不同尺度的卷积核提升多尺度特征的表

达能力。此外,Desplanques等人[8]还在基于TDNN的x-vector架构上,提出了ECAPA-

TDNN模型,采用引入SE-Net[9]模块、通道注意机制和多层特征融合等增强方法,进一步扩

展时间上下文,该模型已成为说话人确认领域最优秀的框架之一。

尽管当前大部分说话人确认网络都采用了更深、更复杂的网络结构来提升特征提取能力,

但这也导致模型的参数和推理时间倍增。鉴于此,本文提出一种改进的ECAPA-TDNN模型,

采用VoxCeleb1公开数据集进行实验,结果表明,相对于原模型,在说话人特征提取能力方面

实现了明显提升。

相关工作1

1.1ECAPA-TDNN模型

ECAPA-TDNN是一种基于音频信号的说话人识别模型。模型如图1所示,该模型参数包

括T、C、K、d和S,分别代表输入的音框数目、卷积通道数目、卷积核大小、空洞卷积扩张

率和说话人数目。在本系统中,T为300个frame的固定值,C为512,S为训练数据集的说话

人数目。输入特征为80维的说话人特征向量乘T,输入后经过Conv1D+Relu+BN层处理,紧

接着是三层1D的挤压激励的Res2Block(SE-Res2Block),这些层采用不同的空洞扩张率,

分别为2、3、4。接下来一层是Cov1D+Relu,将不同扩张率的SE-Res2Block输出进行结合,

形成多层特征融合(MFA)。再经过At⁃tentiveStatisticalPooling(ASP)层,进行加权平均

值和加权标准差聚合后进行池化,最后通过全连接层,生成192维的说话人特征向量。最后一

层采用AAMSoftmax算法进行分类,将192维度的说话人嵌入向量进行分类,输出数据集训练

的说话人数目。

提高1.2模型嵌入向量维度

在ECAPA-TDNN模型中,通过将嵌入向量的维度从原本192维调整至512维度,可以更

准确地捕捉和识别不同说话者之间的语音差别,从而提升模型的准确性。具体来说,说话人的

特征在低维度下可能会变得模糊或失真,而高维度的嵌入可以更好地保留这些特征。此外,在

进行分类任务时,使用高维度的嵌入还可以提高模型对于训练数据特征的拟合能力,从而得到

更好的分类效果。

改1.

文档评论(0)

187****8570 + 关注
实名认证
文档贡献者

办公室文员

1亿VIP精品文档

相关文档