- 1
- 0
- 约2.66万字
- 约 7页
- 2026-03-06 发布于北京
- 举报
实时视听语音增强使用预训练的视觉表示
TengMa,SileYin,Li-ChiaYang,ShuoZhang
SchoolofMusic,GeorgiaInstituteofTechnology,UnitedStates
Research,BoseCorporation,UnitedStates
tengofma@,sile_yin@,richard_yang@,shuo_zhang@
Abstract语。传统的仅音频语音增强(AOSE)方法在多说
话者场景中通常难以应对,除非提供目标说话人
仅音频环境中的语音增强仍具挑战性,尤其是在存
的注册音频[5]。这一局限性促使音频-视觉语音增
在干扰说话者的情况下。本文提出了一种简单而有
强(AVSE)作为一种有前途的替代方案出现,利用
效的实时音视频语音增强(AVSE)系统RAVEN,
现代设备上日益普及的视频输入。
该系统在抑制干扰说话者和背景噪声的同时隔离
大多数现有的AVSE工作是在非因果设置下
并增强了屏幕上的目标说话者。我们研究了从音
本进行的,采用基于掩码的[2,6,7]、基于映射的
视频语音识别(AVSR)和活动说话者检测(ASD)
译[8–10]或基于合成的方法[3,11]。许多系统依赖于
中学到的视觉嵌入如何对不同信噪比条件和干扰
中原始视觉输入[6,7,11],这会带来高计算需求并需
说话者数量下的AVSE做出贡献。我们的结果显
2要大量的训练数据。因此,一些工作通过经典方
v示,在低信噪比、多说话者的环境中,将AVSR和
8ASD模型中的嵌入进行拼接提供了最大的改进,法如离散余弦变换[12,13]或使用面部特征点[14]
4来降低维度。此外,也有一些工作探索了提取嵌入
4而在仅噪声场景中,单独使用AVSR嵌入的效果
1的方法,这些嵌入在低维潜在空间中编码与语音
2.最好。此外,我们开发了一个在计算机CPU上运相关的信息,例如为音视频同步设计的多模态特
7行的实时流媒体系统,并提供视频演示和代码仓
0库。据我们所知,这是首个公开实现的实时AVSE征[15]。类似地,从相关语音任务中提取的嵌入也
5被证明是有效的[16]。尽管AVSE方法在复杂声
2系统。
:学环境中显示出比AOSE更好的性能,但在实际
vIndexTerms:视听说话增强,多模态机器学习,
i应用中的部署需要实时、低延迟操作。最近,提出
您可能关注的文档
- 展示了联网和自动驾驶车辆在网络安全、安全性和隐私问题方面的标准和方法.pdf
- WIP:通过 AI 驱动的同伴代理增强基于游戏的学习.pdf
- 基于图的交互增强网络用于稳健的多模态情感分析.pdf
- RoboLinker: 一种基于扩散模型的人类与陪伴机器人之间的匹配服装生成器.pdf
- CSIRO-LT 在 SemEval-2025 任务 11 中:适应多语言情感识别的大型语言模型.pdf
- Q8bot 的设计:一款采用零电线构建的微型低成本动态四足机器人.pdf
- 跨设备运动交互通过苹果的原生系统框架.pdf
- 利用上下文感知机器学习框架监测压力以保护学生心理健康.pdf
- 基于多头注意力的状态估计的卫星辅助车联网中的连接性管理.pdf
- 再循环分割++: 基于扩展残差引导的跨模态扩散方法用于脑肿瘤分割.pdf
最近下载
- 《毛选》读后感打印版.pdf VIP
- 自动水平缠绕机装置设计--毕业论文设计.doc VIP
- 南京医科大学《马哲》1中国马克思主义与当代3.ppt VIP
- 2024年新教科版五年级下册科学全册精编知识点(超全).doc VIP
- 2023机电工程装配式支吊架安装及验收规程.docx VIP
- 课件:直升机基本维护擦洗和润滑保养工作课件讲解.pptx VIP
- 新材料科学与技术产业领域研究与应用的合作模式与合作机制.pptx VIP
- 2025年新洋丰肥业万新型复合肥陶赖昭工业园化工业园新洋丰环评报告.docx VIP
- 肾盂输尿管连接部梗阻护理常规及健康教育.docx VIP
- 2025年安全工器具管理规定.docx VIP
原创力文档

文档评论(0)