实时视听语音增强使用预训练的视觉表示.pdfVIP

下载本文档

1
0
约2.66万字
约 7页
2026-03-06 发布于北京
举报

实时视听语音增强使用预训练的视觉表示.pdf

实时视听语音增强使用预训练的视觉表示

TengMa,SileYin,Li-ChiaYang,ShuoZhang

SchoolofMusic,GeorgiaInstituteofTechnology,UnitedStates

Research,BoseCorporation,UnitedStates

tengofma@,sile_yin@,richard_yang@,shuo_zhang@

Abstract语。传统的仅音频语音增强(AOSE)方法在多说

话者场景中通常难以应对，除非提供目标说话人

仅音频环境中的语音增强仍具挑战性，尤其是在存

的注册音频[5]。这一局限性促使音频-视觉语音增

在干扰说话者的情况下。本文提出了一种简单而有

强(AVSE)作为一种有前途的替代方案出现，利用

效的实时音视频语音增强（AVSE）系统RAVEN，

现代设备上日益普及的视频输入。

该系统在抑制干扰说话者和背景噪声的同时隔离

大多数现有的AVSE工作是在非因果设置下

并增强了屏幕上的目标说话者。我们研究了从音

本进行的，采用基于掩码的[2,6,7]、基于映射的

视频语音识别（AVSR）和活动说话者检测（ASD）

译[8–10]或基于合成的方法[3,11]。许多系统依赖于

中学到的视觉嵌入如何对不同信噪比条件和干扰

中原始视觉输入[6,7,11]，这会带来高计算需求并需

说话者数量下的AVSE做出贡献。我们的结果显

2要大量的训练数据。因此，一些工作通过经典方

v示，在低信噪比、多说话者的环境中，将AVSR和

8ASD模型中的嵌入进行拼接提供了最大的改进，法如离散余弦变换[12,13]或使用面部特征点[14]

4来降低维度。此外，也有一些工作探索了提取嵌入

4而在仅噪声场景中，单独使用AVSR嵌入的效果

1的方法，这些嵌入在低维潜在空间中编码与语音

2.最好。此外，我们开发了一个在计算机CPU上运相关的信息，例如为音视频同步设计的多模态特

7行的实时流媒体系统，并提供视频演示和代码仓

0库。据我们所知，这是首个公开实现的实时AVSE征[15]。类似地，从相关语音任务中提取的嵌入也

5被证明是有效的[16]。尽管AVSE方法在复杂声

2系统。

:学环境中显示出比AOSE更好的性能，但在实际

vIndexTerms:视听说话增强，多模态机器学习，

i应用中的部署需要实时、低延迟操作。最近，提出

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

实时视听语音增强使用预训练的视觉表示.pdfVIP