实时流 MEL 声码器生成流匹配.pdfVIP

实时流 MEL 声码器生成流匹配.pdf

30=0.830实时流MEL声码器生成流匹配

56=0.856SimonWelkerTalPeerTimoGerkmann

74=0.874ABSTRACT我们的贡献如下：(1)我们结合了我们之前关于基

于扩散的STFT相位检索的工作[7]与FreeV的主要

Mel声码化任务，即从一个Mel幅度谱图逆向生成音思想[6]和生成插值流匹配方法[8]来实现可流式处理

频波形，在当今许多文本到语音(TTS)系统中仍然是的生成Mel编码；(2)我们开发了一个定制的逐帧因果

一个重要组成部分。基于生成流匹配、我们先前关于生成DNN和迭代推理方案，总延迟为48ms不仅

生成STFT相位检索（DiffPhase）的工作以及梅尔滤在批处理Mel谱图时如此，在普通笔记本电脑GPU上

波器组的伪逆算子，我们开发了75=0.875梅尔流，这的实际流式推理中也是如此；(3)我们展示了我们的模

是一个能够在16kHz采样音频上进行实时处理的生型在PESQ和SI-SDR方面比最先进的基线模型包括

本成式Mel声码器，其算法延迟仅为32毫秒，总延迟HiFi-GAN[9]有显著的改进，同时在非侵入性指标上

为48毫秒。我们在理论和实践中（在消费者级笔记保持竞争力；(4)根据我们所知，我们提供了第一个用

译本电脑GPU上）展示了这一延迟下的实时流媒体能1

于可流式处理Mel编码的公共代码库和模型检查点。

中力。此外，我们证明了我们的模型与包括HiFi-GAN

在内的已建立的非流式处理Mel声码化基准相比，在

1PESQ和SI-SDR值方面取得了显著更好的结果。2.背景

574=0.87474=0.874IndexTerms—实时，声码器，

8梅尔频谱图逆变换，扩散模型，流匹配在下面，我们介绍基于扩散和流的语音处理，并

0将它们与流式推理相关联。由于两者紧密相连，我们

5将两者统称为基于扩散的。作为STFT基础处理中

1.1.介绍流式推理的基本定义，我们将方法的算法延迟定义为

9STFT窗口时长，并将总延迟定义为STFT窗口时长

0Mel声码器，也称为梅尔频谱图逆变换，是将仅加上一个STFT框架偏移量，前提是处理每个框架的

5包含幅度的梅尔频谱图转换回波形的任务。长期以来，模型必须在单个STFT框架偏移量的时间内完成其操

2作。我们将流式模型的cro:RTFreal-timefactor(RTF)

:它一直是各种语音处理任务的核心组成部分，特别是

v对于文本到语音的方法，这些方法通常采用两阶段的定义为单帧处理时间除以帧移持续时间，并且如果一

x方法，其中第二阶段涉及使用Mel声码器[1],[2],[3]。个模型能够逐帧处理并在实践中实现RTF，我们

r我们在这里感兴趣的是固定总延迟的Mel就说该模型具有流式处理能力。

声码器的一种变体可流式传输的，在这种变体中，梅

尔频谱图被逐帧转换为波形。可流式处理的声码器是2.1.扩散和流式语音处理

与cro:TTStext-to-speech(TTS)模型进行自然实时对

话的重要构建模块。与典型的基于回合的通信风格不基于扩散的语音增强和去混

更多 >