实时流 MEL 声码器生成流匹配.pdfVIP

  • 1
  • 0
  • 约2.06万字
  • 约 6页
  • 2026-02-27 发布于北京
  • 举报

30=0.830实时流MEL声码器生成流匹配

56=0.856SimonWelkerTalPeerTimoGerkmann

74=0.874ABSTRACT我们的贡献如下:(1)我们结合了我们之前关于基

于扩散的STFT相位检索的工作[7]与FreeV的主要

Mel声码化任务,即从一个Mel幅度谱图逆向生成音思想[6]和生成插值流匹配方法[8]来实现可流式处理

频波形,在当今许多文本到语音(TTS)系统中仍然是的生成Mel编码;(2)我们开发了一个定制的逐帧因果

一个重要组成部分。基于生成流匹配、我们先前关于生成DNN和迭代推理方案,总延迟为48ms不仅

生成STFT相位检索(DiffPhase)的工作以及梅尔滤在批处理Mel谱图时如此,在普通笔记本电脑GPU上

波器组的伪逆算子,我们开发了75=0.875梅尔流,这的实际流式推理中也是如此;(3)我们展示了我们的模

是一个能够在16kHz采样音频上进行实时处理的生型在PESQ和SI-SDR方面比最先进的基线模型包括

本成式Mel声码器,其算法延迟仅为32毫秒,总延迟HiFi-GAN[9]有显著的改进,同时在非侵入性指标上

为48毫秒。我们在理论和实践中(在消费者级笔记保持竞争力;(4)根据我们所知,我们提供了第一个用

译本电脑GPU上)展示了这一延迟下的实时流媒体能1

于可流式处理Mel编码的公共代码库和模型检查点。

中力。此外,我们证明了我们的模型与包括HiFi-GAN

在内的已建立的非流式处理Mel声码化基准相比,在

1PESQ和SI-SDR值方面取得了显著更好的结果。2.背景

v

574=0.87474=0.874IndexTerms—实时,声码器,

8梅尔频谱图逆变换,扩散模型,流匹配在下面,我们介绍基于扩散和流的语音处理,并

0将它们与流式推理相关联。由于两者紧密相连,我们

5将两者统称为基于扩散的。作为STFT基础处理中

1.1.介绍流式推理的基本定义,我们将方法的算法延迟定义为

9STFT窗口时长,并将总延迟定义为STFT窗口时长

0Mel声码器,也称为梅尔频谱图逆变换,是将仅加上一个STFT框架偏移量,前提是处理每个框架的

5包含幅度的梅尔频谱图转换回波形的任务。长期以来,模型必须在单个STFT框架偏移量的时间内完成其操

2作。我们将流式模型的cro:RTFreal-timefactor(RTF)

:它一直是各种语音处理任务的核心组成部分,特别是

v对于文本到语音的方法,这些方法通常采用两阶段的定义为单帧处理时间除以帧移持续时间,并且如果一

i

x方法,其中第二阶段涉及使用Mel声码器[1],[2],[3]。个模型能够逐帧处理并在实践中实现RTF,我们

r我们在这里感兴趣的是固定总延迟的Mel就说该模型具有流式处理能力。

a

声码器的一种变体可流式传输的,在这种变体中,梅

尔频谱图被逐帧转换为波形。可流式处理的声码器是2.1.扩散和流式语音处理

与cro:TTStext-to-speech(TTS)模型进行自然实时对

话的重要构建模块。与典型的基于回合的通信风格不基于扩散的语音增强和去混

文档评论(0)

1亿VIP精品文档

相关文档