基于动态卷积和窄带Conformer网络的TSEGAN语音增强研究.pdfVIP

  • 4
  • 0
  • 约13.18万字
  • 约 73页
  • 2025-03-30 发布于江西
  • 举报

基于动态卷积和窄带Conformer网络的TSEGAN语音增强研究.pdf

摘要

语音增强是语音信号处理领域的研究重点之一,其目的是抑制或消除说话人语音的背景

噪声,同时保证语音不产生失真。在语音增强的研究中,主要通过以下两个方面评价一个算

法的优劣:一方面是抑制或消除说话人语音的背景噪声,另一方面是保证生成的增强语音拥

有较高的语音感知质量和可懂度。近些年,研究人员把更多注意力放在不断发展的深度学习

上,以深度神经网络为基础的语音增强方法自然地成为该领域的主要研究方向。在基于深度

学习的神经网络技术发展的促进下,语音增强领域涌现出许多性能优异的模型。本文以基于

生成对抗网络的时域语音增强模型(TSEGAN模型)为基准,针对增强语音的感知质量和可

懂度两方面展开相关分析与研究,并提出一系列提升模型性能的方法。

首先,为了提高模型的表达能力,生成质量更好的增强语音,本文对生成器的网络结构

进行了改进,将窄带Conformer网络引入到TSEGAN模型的生成器中,提出了基于窄带

Conformer网络的TSEGAN模型。由于多层次的窄带Conformer网络兼具Transformer的全局

建模和卷积网络的局部建模能力,使得生成器可以更好地处理语音信号的特征信息,从而提

高了增强语音的感知质量和可懂度。主观和客观评价结果表明,相较于基准模型,本文提出

的NBC-TSEGAN模型增强语音的平均STOI值提升4.92%,平均PESQ值提升2.85%,表明

本文方法提高了增强语音的可懂度和感知质量,平均CSIG/CBAK/COVL值分别提升4.85%、

3.28%、4.30%,验证了本文方法能够有效提升增强语音的整体听觉效果。

接着,在上述模型改进的基础上,为了进一步提升增强语音的质量,本文提出了基于动

态卷积和窄带Conformer网络的语音增强模型,该模型利用动态卷积不会额外增加大量计算

且能进一步提升模型性能的特点,将鉴别器中的二维卷积替换为动态卷积来提高鉴别器的反

欺骗能力,从而提高生成器的生成和表达能力。主观和客观评价结果表明,相较于基准模型,

DyConv-NBC-TSEGAN模型增强语音的平均STOI值提升6.56%,平均PESQ值提升4.63%,

平均CSIG/CBAK/COVL值分别提升9.70%、7.38%、5.73%;相较于NBC-TSEGAN模型,

DyConv-NBC-TSEGAN模型增强语音的平均STOI值提升1.96%,平均PESQ值提升1.73%,

平均CSIG/CBAK/COVL值分别提升4.63%、2.38%、1.37%,验证了本文方法能够有效提升

增强语音的感知质量和整体听觉效果,从而有效提高模型的增强效果。

综上所述,本文通过在基准模型中引入窄带Conformer网络,提高了生成器的生成和表

达能力,从而提升了增强语音的感知质量和可懂度。为了进一步提升增强语音的质量,本文

提出了基于动态卷积和窄带Conformer网络的语音增强模型,利用动态卷积替换普通卷积,

动态卷积可以随时间变化产生不同的动态卷积核来动态调整卷积核的参数,改善了模型性能,

从而有效提升增强语音的可懂度和整体听觉效果。

关键词:语音增强,基于生成对抗网络的时域语音增强模型,深度神经网络,窄带

Conformer网络,动态卷积

Abstract

Speechenhancement(SE)isoneoftheresearchfocusesinthefieldofspeechsignalprocessing,

withtheaimofsuppressingoreliminatingthebackgroundnoiseofthespeakersspeechwhile

ensuringthatthespeechdoesnotproducedistortion.IntheresearchofSE,SEmainlyevaluatesthe

advantagesanddisadvantagesofanalgorithmthroughtwoaspects:oneistosuppressoreliminate

thebackgroundnoise

文档评论(0)

1亿VIP精品文档

相关文档