- 1
- 0
- 约2.4万字
- 约 5页
- 2026-02-26 发布于北京
- 举报
跨语言F5-TTS:迈向语言无关的声音克隆和语音合成
刘青宇,陈语森,牛志康,王春辉,杨云婷,
张博文,赵健,朱鹏程,余凯,陈协
MoEKeyLabofArtificialIntelligence,X-LANCELab,SchoolofComputerScience,
ShanghaiJiaoTongUniversity,ChinaShanghaiInnovationInstitute,China,
JohnsHopkinsUniversity,USA,Geely,China
ABSTRACTLibriSpeech-PCtest-clean和Seed-TTS-eval上实现了与F5-
TTS相当的表现,并成功地将其能力扩展到了跨语言场景,取
基于流匹配的文本到语音(TTS)模型展示了高质量的语音合得了有前景的结果。1
成。然而,目前大多数基于流匹配的TTS模型仍然依赖于与音
频提示相对应的参考文稿进行合成。这种依赖性阻止了在无法
获取音频提示文稿时进行跨语言的声音克隆,特别是对于未见2.方法
本过的语言。基于流匹配的TTS模型消除音频提示文稿的关键挑
2.1.基于流匹配的TTS初步研究
译战是在训练过程中识别单词边界以及在推理过程中确定适当的
持续时间。本文介绍了Cross-LingualF5-TTS框架,该框架能基于流匹配的模型[7–9]在TTS任务中最近取得了显著的
中够在没有音频提示文稿的情况下实现跨语言声音克隆。我们的成绩。这种方法在模型简洁性方面提供了重大优势。具体而言,
方法通过对音频提示进行强制对齐预处理以获得单词边界,从通过利用流匹配,E2-TTS[8]和F5-TTS[9]消除了额外的组
1而可以在训练中直接从音频提示合成语音而不使用文稿。为了件,如音素时长预测器和复杂的文本编码器,从而保持了管道
v解决持续时间建模的挑战,我们在不同的语言粒度级别上训练的简洁性并实现了高质量的合成。
9说话率预测器来根据说话者速度推导出持续时间。实验表明,流动匹配框架旨在学习一个随时间变化的向量场,该向
7我们的方法在与F5-TTS性能相匹配的同时实现了跨语言声音量场匹配简单噪声分布和数据分布之间的概率路径,以
5克隆。生成采样流步骤的流动。训练目标被表述为条件
4流动匹配(CFM)损失:
1.IndexTerms—流匹配,跨语言语音克隆
(1)
CFM
9
01.介绍
您可能关注的文档
- 位置:使用大型语言模型对非结构化临床记录进行主题分析.pdf
- MMED:基于音视频融合的多模态微表情数据集.pdf
- 弱对抗神经推前映射用于 Fokker-Planck 方程.pdf
- 域适应 用于溃疡性结肠炎严重程度估计使用患者级诊断.pdf
- DICE: 稀疏视图 CT 重建的扩散共识平衡.pdf
- 基于扩散的二维地图视觉定位通过 BEV 条件下的 GPS 去噪.pdf
- 具有结构约束的可重构多机器人拆卸系统的分层规划与调度.pdf
- RADIOLUNADIFF:月球地形中无线网络信号强度的估计.pdf
- CLAIP-EMO:语言监督模型的参数高效适应于野外音视频情感识别.pdf
- 基于 IEEE 802.11p 的 V2V 网络中分布式激光雷达点云共享的软件定义无线电测试平台.pdf
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
原创力文档

文档评论(0)