- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
G-IFT:一种具有迭代微调的门控线性单元适配器,用于低资源儿童说话
人验证
VishwasShetty*,JiusiZheng*,AbeerAlwan
DepartmentofElectricalandComputerEngineering,,UniversityofCalifornia,LosAngeles,
USA
shettyvishwas@ucla.edu,zheng94@ucla.edu,alwan@ee.ucla.edu
Abstract用于儿童语音时,由于成人和儿童语音之间存在
显著的声学差异[7],它们经常面临挑战。使用基
语音验证(SV)系统在成人语音上训练时,往往
于成人语音初步训练的预训练模型并用儿童语音
因声学差异而在儿童SV上的表现不佳,而有限的
数据进行微调是广泛采用的一种策略。然而,用有
儿童语音数据使得微调效果不显著。本文提出了
限的儿童语音数据对预训练验证模型进行微调可
一种创新框架——带迭代微调的门控线性单元适
能无法充分解决由于儿童语音资源稀缺导致的声
配器(G-IFT),以提高高资源成人语音领域和低
本学不匹配问题,从而导致知识转移效率低下,并因
资源儿童语音领域之间的知识迁移效率。在该框
译此在目标领域适应方面表现不佳[8,9]。
架中,首先将一个门控线性单元适配器插入预训
中练说话人嵌入模型与分类器之间。然后迭代地依为了解决儿童语音数据稀缺的问题,研究人
1次优化分类器、适配器和预训练说话人嵌入模型。员主要采用了两种策略。第一种是跨域数据增强
v
6此框架对SV系统的底层架构类型不敏感。我们[10,11,12,13],通过添加扰动后的成人语音数
3在ECAPA-TDNN、ResNet和X-vector架构上使据来补充现有的儿童语音数据,使其声学特性类
8
7用OGI和MyST数据集的实验表明,G-IFT框架似于儿童的语音。这包括修改说话速率、音高、
0
8.相较于基准方法,在等错误率方面表现出一致的时长和声道长度等参数来扰动成人语音的方法,
0降低。以及利用循环一致性的生成对抗网络(GAN)进
5IndexTerms:说话人验证,儿童语音,领域适行语音转换,将成人语音转化为类似儿童的语音
2
:应,低资源场景[11,12,13]。
v
i另一种策略涉及模型级别的调整,包括优化模
x
r型架构[14]、设计更有效的损失函数[15]以及使用
a1.介绍
儿童语音对预训练的成人SV模型进行微调[16]。
随着技术创新的兴起,儿童越来
您可能关注的文档
- 在生成手语中表达情感的挑战与机遇.pdf
- 通过混合异常检测保障生成式 AI 在临床前成像中的应用安全.pdf
- 元离线策略估计.pdf
- 弥散盲点:使用扩散模型合成子宫 MRI.pdf
- 尚未对心灵应用 AlphaFold:评估 Centaur 作为合成参与者的能力.pdf
- 多智能体系统在化学工程中的应用:综述与展望.pdf
- GPU 加速的量子 LDPC 码综合解码低于 63 微秒延迟阈值.pdf
- 推荐 菜肴趁热吃更佳.pdf
- 混合现实辅助成人注意缺陷多动障碍症状的挑战.pdf
- 半导体微结构的形态学分析使用骨架图.pdf
- 无注释的病理学中视觉语言模型的轻松专业化.pdf
- KIRETT: 基于知识图谱的智能救援操作治疗助手.pdf
- 听觉智能:通过声音理解世界.pdf
- 分割与理解:区域感知语义注意力用于基于大型语言模型的细粒度图像质量评估.pdf
- SwarmVLM:由 VLM 引导的阻抗控制实现异构机器人在动态仓库中的自主导航.pdf
- 黑色素瘤生长的有限元三维模型及在 6GHz 下黑色素瘤介电特性的时间依赖背散射数据.pdf
- 解剖结构感知的低剂量 CT 去噪通过预训练视觉模型和语义引导对比学习.pdf
- SASST: 利用语法感知切分和大语言模型进行同步语音翻译.pdf
- 一个实验性的水库增强基础模型:6G O-RAN 案例研究.pdf
- Dream4D:将摄像头控制的 I2V 提升至时空一致的 4D 生成.pdf
最近下载
- 十八护理核心制度.doc VIP
- Unit3OurcultureourtresaureReading课件高中英语牛津译林版(2020)选修第三册3.pptx
- JJF(京)159-2025 水质在线电导率仪校准规范.pdf VIP
- GZ104 跨境电子商务赛题第5套-2024年全国职业院校技能大赛双数年拟设赛项赛题.pdf VIP
- 新22J10 无障碍设计.docx VIP
- 杨志人物介绍水浒传.pptx VIP
- 材料科学与工程基础》顾宜第四章课后答案.pptx VIP
- GZ104 跨境电子商务赛题第6套-2024年全国职业院校技能大赛双数年拟设赛项赛题.pdf VIP
- 《PDCA管理循环培训》课件.ppt VIP
- DGTJ08-2206-2024 建筑信息模型技术应用标准(人防工程).pdf VIP
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)