通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdfVIP

  • 0
  • 0
  • 约2.32万字
  • 约 5页
  • 2026-02-27 发布于北京
  • 举报

通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf

通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题

FranciscoMessina,FrancescaRonchini,LucaComanducci,PaoloBestagini,FabioAntonacci

DipartimentodiElettronica,InformazioneeBioingegneria,PolitecnicodiMilano,Italy

1

ABSTRACT音频片段和用于实验的代码在线免费提供。

生成音频模型中一个持续的挑战是数据复制,即在推理过程中

模型无意间生成了其训练数据的部分内容。在这项工作中,我2.背景和预备知识

们通过探索反记忆策略的应用来解决文本到音频扩散模型中的

本节提供了简要的背景概述,以便于清楚地理解本研究。

这一问题。我们采用反记忆指导(AMG)技术,该技术修改预训

练扩散模型的采样过程以减少记忆。我们的研究探讨了AMG

内的三种类型引导,每种设计都旨在降低复制风险同时保持生2.1.潜在扩散模型

成质量。我们使用StableAudioOpen作为基础架构,利用其完

我们定义为长度为N个样本的离散音频信号。我

全开源的架构和训练数据集。我们的全面实验分析表明,AMG

们考虑一个编码器和一个解码器,使得我们可以获得潜在

本显著减轻了基于扩散的文本到音频生成中的记忆问题,而不会表示,然后从中检索出音频作为。潜在扩

影响音频保真度或语义对齐。

译散模型[19],然后通过一个前向过程来表征,该过程中逐步将

IndexTerms—生成音频模型,反记忆化,版权,生成式高斯噪声添加到潜向量中,使用个时间步长,使

中AI,文本到音频,文本到音乐得。然后可以在任意时间步长处采样如下:

1(1)

v1.介绍

4其中和是控制每

3自动音频生成随着多模态文本到音频模型的兴起而迅速发

个时间步长添加噪声量的噪声调度。然后,在反向过程中,在

9展,这些模型可以从用户提供的字幕生成短音频片段[1,2,3]。任意一步,噪声是通过最小化损失

4它们的可访问性降低了技术障碍[4],并且它们在音乐生成方面

1的商业成功引发了伦理问题,特别是在版权和知识产权方面[5,

(2)

9.6]。基于扩散的技术[7]已迅速成为最广泛采用的生成模型之

0一。然而,这些模

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档