G-IFT：一种具有迭代微调的门控线性单元适配器，用于低资源儿童说话人验证.pdfVIP

下载本文档

0
0
约2.41万字
约 7页
2025-10-14 发布于北京
举报
版权申诉

G-IFT：一种具有迭代微调的门控线性单元适配器，用于低资源儿童说话人验证.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

G-IFT：一种具有迭代微调的门控线性单元适配器，用于低资源儿童说话

人验证

VishwasShetty*,JiusiZheng*,AbeerAlwan

DepartmentofElectricalandComputerEngineering,,UniversityofCalifornia,LosAngeles,

USA

shettyvishwas@ucla.edu,zheng94@ucla.edu,alwan@ee.ucla.edu

Abstract用于儿童语音时，由于成人和儿童语音之间存在

显著的声学差异[7]，它们经常面临挑战。使用基

语音验证（SV）系统在成人语音上训练时，往往

于成人语音初步训练的预训练模型并用儿童语音

因声学差异而在儿童SV上的表现不佳，而有限的

数据进行微调是广泛采用的一种策略。然而，用有

儿童语音数据使得微调效果不显著。本文提出了

限的儿童语音数据对预训练验证模型进行微调可

一种创新框架——带迭代微调的门控线性单元适

能无法充分解决由于儿童语音资源稀缺导致的声

配器（G-IFT），以提高高资源成人语音领域和低

本学不匹配问题，从而导致知识转移效率低下，并因

资源儿童语音领域之间的知识迁移效率。在该框

译此在目标领域适应方面表现不佳[8,9]。

架中，首先将一个门控线性单元适配器插入预训

中练说话人嵌入模型与分类器之间。然后迭代地依为了解决儿童语音数据稀缺的问题，研究人

1次优化分类器、适配器和预训练说话人嵌入模型。员主要采用了两种策略。第一种是跨域数据增强

6此框架对SV系统的底层架构类型不敏感。我们[10,11,12,13]，通过添加扰动后的成人语音数

3在ECAPA-TDNN、ResNet和X-vector架构上使据来补充现有的儿童语音数据，使其声学特性类

7用OGI和MyST数据集的实验表明，G-IFT框架似于儿童的语音。这包括修改说话速率、音高、

8.相较于基准方法，在等错误率方面表现出一致的时长和声道长度等参数来扰动成人语音的方法，

0降低。以及利用循环一致性的生成对抗网络（GAN）进

5IndexTerms:说话人验证，儿童语音，领域适行语音转换，将成人语音转化为类似儿童的语音

:应，低资源场景[11,12,13]。

i另一种策略涉及模型级别的调整，包括优化模

r型架构[14]、设计更有效的损失函数[15]以及使用

a1.介绍

儿童语音对预训练的成人SV模型进行微调[16]。

随着技术创新的兴起，儿童越来

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

G-IFT：一种具有迭代微调的门控线性单元适配器，用于低资源儿童说话人验证.pdfVIP