实时视听语音增强使用预训练的视觉表示.pdfVIP

  • 1
  • 0
  • 约2.66万字
  • 约 7页
  • 2026-03-06 发布于北京
  • 举报

实时视听语音增强使用预训练的视觉表示.pdf

实时视听语音增强使用预训练的视觉表示

TengMa,SileYin,Li-ChiaYang,ShuoZhang

SchoolofMusic,GeorgiaInstituteofTechnology,UnitedStates

Research,BoseCorporation,UnitedStates

tengofma@,sile_yin@,richard_yang@,shuo_zhang@

Abstract语。传统的仅音频语音增强(AOSE)方法在多说

话者场景中通常难以应对,除非提供目标说话人

仅音频环境中的语音增强仍具挑战性,尤其是在存

的注册音频[5]。这一局限性促使音频-视觉语音增

在干扰说话者的情况下。本文提出了一种简单而有

强(AVSE)作为一种有前途的替代方案出现,利用

效的实时音视频语音增强(AVSE)系统RAVEN,

现代设备上日益普及的视频输入。

该系统在抑制干扰说话者和背景噪声的同时隔离

大多数现有的AVSE工作是在非因果设置下

并增强了屏幕上的目标说话者。我们研究了从音

本进行的,采用基于掩码的[2,6,7]、基于映射的

视频语音识别(AVSR)和活动说话者检测(ASD)

译[8–10]或基于合成的方法[3,11]。许多系统依赖于

中学到的视觉嵌入如何对不同信噪比条件和干扰

中原始视觉输入[6,7,11],这会带来高计算需求并需

说话者数量下的AVSE做出贡献。我们的结果显

2要大量的训练数据。因此,一些工作通过经典方

v示,在低信噪比、多说话者的环境中,将AVSR和

8ASD模型中的嵌入进行拼接提供了最大的改进,法如离散余弦变换[12,13]或使用面部特征点[14]

4来降低维度。此外,也有一些工作探索了提取嵌入

4而在仅噪声场景中,单独使用AVSR嵌入的效果

1的方法,这些嵌入在低维潜在空间中编码与语音

2.最好。此外,我们开发了一个在计算机CPU上运相关的信息,例如为音视频同步设计的多模态特

7行的实时流媒体系统,并提供视频演示和代码仓

0库。据我们所知,这是首个公开实现的实时AVSE征[15]。类似地,从相关语音任务中提取的嵌入也

5被证明是有效的[16]。尽管AVSE方法在复杂声

2系统。

:学环境中显示出比AOSE更好的性能,但在实际

vIndexTerms:视听说话增强,多模态机器学习,

i应用中的部署需要实时、低延迟操作。最近,提出

文档评论(0)

1亿VIP精品文档

相关文档