用于增强视野依赖信号的移动说话人双耳化混合专家框架.pdfVIP

用于增强视野依赖信号的移动说话人双耳化混合专家框架.pdf

用于增强视野依赖信号的移动说话人双耳化混合专家框架

马纳恩·米塔尔，托马斯·德皮希，约瑟夫·福雷，克里斯·勒苏尔，

扎米尔·本-胡尔，大卫·卢·阿隆，丹尼尔·D.E.翁

StonyBrookUniversity,ChalmersUniversityofTechnology,RealityLabsResearch,Meta

ABSTRACT

我们提出了一种新颖的专家混合框架，用于双耳信号匹

配中的视野增强。我们的方法能够实现动态的空间音频

本渲染，适应声源运动，允许用户强调或抑制来自选定方

向的声音，同时保持自然的双耳线索。与依赖明确到达

译方向估计的传统方法不同，我们的信号相关框架使用隐

中式定位在线组合多个双耳滤波器。这使得可以实时跟踪

2和增强移动声源，支持诸如语音聚焦、噪声降低以及增

8强现实和虚拟现实中的世界锁定音频等应用。该方法不Fig.1.提出的双耳化方法。束空间变换的每个方向输出

4依赖于阵列几何形状，并为下一代消费级音频设备的空都使用信号依赖的双耳信号匹配进行渲染。每个候选方

3间音频捕获和播放提供了灵活的解决方案。向都被视为一个“专家”，该方法旨在自适应地融合来自

.IndexTerms—空间音频，波束成形，麦克风阵列，不同专家的估计。

9外，我们提出了一种专家混合算法，能够以在线方式结

0双耳渲染，专家混合模型合多个信号依赖双耳信号匹配滤波器的估计值，并通过

2隐式定位而不是依靠传统的到达方向估计算法来完成此

:1.介绍

v操作。这使模型能够在不假设平稳性的情况下跟踪连续

i消费级音频捕捉设备越来越多地设计为可穿戴技说话者。图1描述了所提方法的系统图。FoVE的目标是

r术。其中，佩戴式麦克风阵列在捕捉声场和实现双耳渲染在允许用户操控双耳渲染滤波器的方向响应的同时，保

方面受到了广泛关注。当用户希望以与原始录音相同的持记录声音场的空间结构。实际操作中，这意味着允许

方式重新体验录制内容时，就产生了一个关键应用场景。用户以感知一致的方式增加或减少来自选定方向的相对

这强调了保留捕获时刻存在的听觉线索的下游处理方法能量。这将对选定区域内的声源进行强调并抑制其外的

的重要性[1]。将麦克风阵列信号进行滤波和求和，以再声源，同时保留双耳线索和跨方向的空间一致性。重要

现用户左耳和右耳的双耳提示的过程被称为端到端幅度的是，这一过程不仅限于语音来源，还适用于更广泛的

最小二乘法(eMagLS)[2]或双耳信号匹配(BSM)[3]。声音场。这项工作是在智能眼镜的背景下提出的，并不假

另一种生成双耳信号的方法依赖于到达方向（DOA）估设特定的阵列几何形状，框架也扩展到任意麦克风阵列。

计和波束成形来提取直达信号成分，并分别渲染直达声

场成分和混响声场成分[4]。2.信号模型

希望给用户提供对渲染音频属性的额外控制。这种

控制可能表现为语音增强、降噪、支持与世界锁定的音频考虑一个带有个麦克风的麦克风阵列，用于捕