通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdfVIP

通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf

通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题

FranciscoMessina,FrancescaRonchini,LucaComanducci,PaoloBestagini,FabioAntonacci

DipartimentodiElettronica,InformazioneeBioingegneria,PolitecnicodiMilano,Italy

ABSTRACT音频片段和用于实验的代码在线免费提供。

生成音频模型中一个持续的挑战是数据复制，即在推理过程中

模型无意间生成了其训练数据的部分内容。在这项工作中，我2.背景和预备知识

们通过探索反记忆策略的应用来解决文本到音频扩散模型中的

本节提供了简要的背景概述，以便于清楚地理解本研究。

这一问题。我们采用反记忆指导（AMG）技术，该技术修改预训

练扩散模型的采样过程以减少记忆。我们的研究探讨了AMG

内的三种类型引导，每种设计都旨在降低复制风险同时保持生2.1.潜在扩散模型

成质量。我们使用StableAudioOpen作为基础架构，利用其完

我们定义为长度为N个样本的离散音频信号。我

全开源的架构和训练数据集。我们的全面实验分析表明，AMG

们考虑一个编码器和一个解码器，使得我们可以获得潜在

本显著减轻了基于扩散的文本到音频生成中的记忆问题，而不会表示，然后从中检索出音频作为。潜在扩

影响音频保真度或语义对齐。

译散模型[19]，然后通过一个前向过程来表征，该过程中逐步将

IndexTerms—生成音频模型，反记忆化，版权，生成式高斯噪声添加到潜向量中，使用个时间步长，使

中AI，文本到音频，文本到音乐得。然后可以在任意时间步长处采样如下：

1(1)

v1.介绍

4其中和是控制每

3自动音频生成随着多模态文本到音频模型的兴起而迅速发

个时间步长添加噪声量的噪声调度。然后，在反向过程中，在

9展，这些模型可以从用户提供的字幕生成短音频片段[1,2,3]。任意一步，噪声是通过最小化损失

4它们的可访问性降低了技术障碍[4]，并且它们在音乐生成方面

1的商业成功引发了伦理问题，特别是在版权和知识产权方面[5,

(2)

9.6]。基于扩散的技术[7]已迅速成为最广泛采用的生成模型之

0一。然而，这些模

更多 >