学习感知相关的时域包络形态变换.pdfVIP

学习感知相关的时域包络形态变换.pdf

学习感知相关的时域包络形态变换

SatvikDixit,SungjoonPark,ChrisDonahue,LaurieM.Heller

CarnegieMellonUniversity

摘要—时域包络变形，即在两个音频信号的幅度动态之间进行插值间包络，它描述了声音整体响度随时间的变化，并构成了识别和

的过程，在生成式音频系统中是一个缺乏充分感知基础的新问题。以一种感知分组的关键信息[21]。心理声学研究表明，听众对包络的细

感知直观的方式对时域包络进行变形应该能够实现创意媒体中的新声音

微特性（如攻击时间、脉冲间隔和幅度调制[21],[22]）非常敏感。

混合方法，并且可以探究心理声学中的感知组织。然而，现有的音频变形

技术往往在输入的声音具有不同的时域结构时无法产生中间的时域包络；然而现有的机器学习系统并未明确编码这些原则，因此基于机器

许多变形器实际上将两种时域结构叠加在一起，导致感知上不自然的结学习的声音变形系统可能无法以感知直观的方式处理这些问题。

果。本文介绍了一种新的工作流程，用于以感知指导的方式学习包络变在这项工作中，我们首先研究人类如何感知时间包络之间的

形：我们首先通过人类听觉研究得出基于感知的变形原则，然后合成编形变。通过一个受控的听觉实验，我们确定了决定听众在音频包

码这些原则的大规模数据集，最后训练机器学习模型来创建感知上的中

络形变过程中对连续性和自然性的感知的关键原则。这些原则基

间变形。具体来说，我们提出了：（1）从我们的听觉研究中得出的引导包

络变形的感知原则，（2）一个监督框架用于学习这些原则，（3）一种自编于简单的包络属性，如脉冲的数量、脉冲间的间隔和时间位置。

码器，用于将时域包络结构压缩到潜在表示形式，以及（4）使用合成数在此基础上，我们构建了一个合成的数据集，其中包括一对基础

本据和自然主义数据对音频包络变形进行评估的标准，并展示了我们的方包络、一个感知上有效的地面真实形变以及插值权重——通过

法在生成时间上中间形态方面优于现有方法。所有代码、模型和检查点

译系统地逐一改变这些属性来生成。为了将这些包络编码为紧凑且

均可在/TemporalMorphing/EnvelopeMorphing

中获取。具有感知意义的表示形式，我们训练了一个自动编码器[23]，它

3IndexTerms—声音变形，生成音频，环境音效将原始包络信号映射到低维潜在空间中。接下来，我们在合成数

v据上训练一个“双胞胎”（顺序无关）神经网络[24]来预测给定两

81.介绍个潜在表示和的适当形变。最后，我们创建了三个基准测试，

5声音变形是将一个声音逐渐平稳地转变为另一个声音的过程，从使用合成的和自然主义的包络来评估我们的系统，并证明我们的

1方法在生成感知上中间的时间包络形变方面始终优于现有技术。

0而生成新颖且感知上融合的声音，这些声音同时类似于[1],[2]。

.我们的贡献如下。

6能够在声音之间平滑变形一直是听觉信号处理的一个长期目标，

0其应用范围从艺术声音设计到认知科学。此类技术在音乐制作中我们从听觉研究中推导出包络形态变化的感知原则。

5的声乐音色混合[3]、虚拟环境的过渡声音效果生成[4]和听觉研我们将这些

更多 >