跨语言 F5-TTS:迈向语言无关的声音克隆和语音合成.pdfVIP

  • 1
  • 0
  • 约2.4万字
  • 约 5页
  • 2026-02-26 发布于北京
  • 举报

跨语言 F5-TTS:迈向语言无关的声音克隆和语音合成.pdf

跨语言F5-TTS:迈向语言无关的声音克隆和语音合成

刘青宇,陈语森,牛志康,王春辉,杨云婷,

张博文,赵健,朱鹏程,余凯,陈协

MoEKeyLabofArtificialIntelligence,X-LANCELab,SchoolofComputerScience,

ShanghaiJiaoTongUniversity,ChinaShanghaiInnovationInstitute,China,

JohnsHopkinsUniversity,USA,Geely,China

ABSTRACTLibriSpeech-PCtest-clean和Seed-TTS-eval上实现了与F5-

TTS相当的表现,并成功地将其能力扩展到了跨语言场景,取

基于流匹配的文本到语音(TTS)模型展示了高质量的语音合得了有前景的结果。1

成。然而,目前大多数基于流匹配的TTS模型仍然依赖于与音

频提示相对应的参考文稿进行合成。这种依赖性阻止了在无法

获取音频提示文稿时进行跨语言的声音克隆,特别是对于未见2.方法

本过的语言。基于流匹配的TTS模型消除音频提示文稿的关键挑

2.1.基于流匹配的TTS初步研究

译战是在训练过程中识别单词边界以及在推理过程中确定适当的

持续时间。本文介绍了Cross-LingualF5-TTS框架,该框架能基于流匹配的模型[7–9]在TTS任务中最近取得了显著的

中够在没有音频提示文稿的情况下实现跨语言声音克隆。我们的成绩。这种方法在模型简洁性方面提供了重大优势。具体而言,

方法通过对音频提示进行强制对齐预处理以获得单词边界,从通过利用流匹配,E2-TTS[8]和F5-TTS[9]消除了额外的组

1而可以在训练中直接从音频提示合成语音而不使用文稿。为了件,如音素时长预测器和复杂的文本编码器,从而保持了管道

v解决持续时间建模的挑战,我们在不同的语言粒度级别上训练的简洁性并实现了高质量的合成。

9说话率预测器来根据说话者速度推导出持续时间。实验表明,流动匹配框架旨在学习一个随时间变化的向量场,该向

7我们的方法在与F5-TTS性能相匹配的同时实现了跨语言声音量场匹配简单噪声分布和数据分布之间的概率路径,以

5克隆。生成采样流步骤的流动。训练目标被表述为条件

4流动匹配(CFM)损失:

1.IndexTerms—流匹配,跨语言语音克隆

(1)

CFM

9

01.介绍

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档