返回耳朵：感知驱动的高保真音乐重构.pdfVIP

返回耳朵：感知驱动的高保真音乐重构.pdf

返回耳朵：感知驱动的高保真音乐重构

KangdiWangZhiyueWuDinghaoZhouRuiLinJunyuDaiTaoJiang

ar-LABiniti-AILtd

CoreContributionCorrespondingAuthorProjectLead

ABSTRACT为了解决这些问题，我们引入了自动编码变分自编码器，

一个优化高保真音乐重建的开源VAE模型。我们的模型包含

变分自编码器（VAEs）对于大型音频任务如基于扩散的生成至了一个K加权感知滤波器，我们证明它比A加权更适用于音

关重要。然而，现有的开源模型在训练过程中往往忽视了听觉乐信号的心理声学特性。为了确保相位一致性，我们提出了新

感知方面的因素，导致相位准确性和立体声空间表示存在不足。的损失函数，通过监督其导数（IFGD）来隐式优化相位性

为了解决这些问题，我们提出了自编码变分自动编码器，能。此外，我们采用了一种新的Mid/Side/Left/Right(MSLR)

一种重新思考并优化VAE训练范式的开放源代码音乐信号重权重方案进行重建损失的应用，以最大化空间和频谱细节的保

建模型。我们的贡献有三个方面：(i)在损失计算之前应用K留。通过这些针对性的设计，自编码变分自回归模型在多个

本加权感知滤波器以使目标与听觉感知保持一致。(ii)两种新颖客观评估中实现了最先进的重建性能，为开源高保真音频VAE

的相位损失：用于立体声相干性的相关性损失，以及利用其导设定了新的基准。

译数——瞬时频率和群延迟——来提高精确度的相位损失。(iii)我们总结我们的贡献如下：首先，我们将K加权滤波器分

中一个新的光谱监督范式，在该范式中，幅度由所有四个MSLR析并整合到VAE训练管道中，将重建目标与音乐感知的心理

（中间/侧面/左/右）组件进行监督，而相位仅由LR组件监督。声学对齐，这与常用的A加权不同。

1实验显示自编码器-变分自编码器在44.1kHz下在各种指其次，我们提出了新型相位感知损失函数，监督相位导数

v标上显著优于领先的开源模型，尤其是在重构高频谐波和空间以隐式建模关键相位差异，从而增强瞬态清晰度和相位一致性。

2特征方面表现出色。第三，我们引入了一种新的监督策略，分别约束幅度和相