基于扩散的无监督音视频语音分离在有噪声先验的嘈杂环境中.pdfVIP

基于扩散的无监督音视频语音分离在有噪声先验的嘈杂环境中.pdf

基于扩散的无监督音视频语音分离

在有噪声先验的嘈杂环境中

1211

YochaiYemini,RamiBen-Ari,SharonGannotandEthanFetaya

1FacultyofEngineering,Bar-IlanUniversity,RamatGan,Israel

2OriginAI

yochai.yemini@biu.ac.il

ABSTRACT其噪声观测中估计目标语音的先验模型。这种方法的

本主要优点是它的灵活性。由于不需要为每个退化设置

在本文中，我们解决了存在环境噪声情况下的单麦克

译风语音分离问题。我们提出了一种生成性无监督技术，训练任何专用模型，可以使用任何语音或噪声模型以

中该技术直接建模清晰的语音和结构化的噪声成分，在及任意数量的说话人。这种优点使得在统一框架内处

1训练过程中仅依赖于这些单独的信号而非嘈杂的混合理各种语音处理问题成为可能，例如语音增强和说话

v人分离。

9信号。我们的方法利用了一个结合视觉线索的音视频

7评分模型，作为强大的生成式语音先验。通过明确地我们专注于使用扩散模型[1,2]作为语音先验的

4对噪声分布与语音分布进行建模，我们能够借助逆问无监督算法，通过逆问题框架从受损录音中估计清晰

.题范式实现有效的分解。我们通过反向扩散过程从后语音。在逆问题公式化中，清晰语音是根据受损语音

0验分布中采样来进行语音分离，直接估计并移除建模条件下的后验语音分布进行采样的。该技术已成功应

5的噪声成分以恢复清晰的信号成分。实验结果展示了用于各种语音处理任务，例如[3–6]。

v令人鼓舞的表现，突显了我们在具有挑战性的声学环然而，将反问题范式应用于环境噪声抑制的适

x境中直接噪声建模方法的有效性。用性尚未得到充分探索。一种最近提出的语音增强

aIndexTerms—生成模型，逆问题，视听语音先验方法[7,8]使用non-negativematrixfactorization

(NMF)建模噪声协方差矩阵。然后执行expectation-

maximisation(EM)次迭代，在从后验分布中采样干

1.介绍

净信号和估计噪声的NMF矩阵之间交替进行。

语音处理中的一个基本挑战是从嘈杂环境中恢复噪声信号的频谱内容差异很大，呈现出复杂的分

清晰的语音记录。在过去十年中，这一领域主要由神布。我们假设NMF噪声模型的表现力可能有限，导

经网络技术主导。大多数方法以监督方式进行噪声去致性能不佳。因此，为了更好地捕捉噪声分布，我们

除，即训练神经网络从其噪声版本预测出清晰的语音。建议部署一个单独的扩散模型作为噪声先验。对于语

尽管监督方法在其训练任务上取得了出色的结果，但音先验，我们学习了一个由视觉线索增强的强大音频

它的主要缺点是缺乏灵活性。当遇到新的声学条件时，扩散模型。在这项研究中，我们利用diffusionposterior

监督方法必须在新场景下重新训练以避免性能下降。sampling(DPS)框架

更多 >