- 0
- 0
- 约2.32万字
- 约 5页
- 2026-02-27 发布于北京
- 举报
通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题
FranciscoMessina,FrancescaRonchini,LucaComanducci,PaoloBestagini,FabioAntonacci
DipartimentodiElettronica,InformazioneeBioingegneria,PolitecnicodiMilano,Italy
1
ABSTRACT音频片段和用于实验的代码在线免费提供。
生成音频模型中一个持续的挑战是数据复制,即在推理过程中
模型无意间生成了其训练数据的部分内容。在这项工作中,我2.背景和预备知识
们通过探索反记忆策略的应用来解决文本到音频扩散模型中的
本节提供了简要的背景概述,以便于清楚地理解本研究。
这一问题。我们采用反记忆指导(AMG)技术,该技术修改预训
练扩散模型的采样过程以减少记忆。我们的研究探讨了AMG
内的三种类型引导,每种设计都旨在降低复制风险同时保持生2.1.潜在扩散模型
成质量。我们使用StableAudioOpen作为基础架构,利用其完
我们定义为长度为N个样本的离散音频信号。我
全开源的架构和训练数据集。我们的全面实验分析表明,AMG
们考虑一个编码器和一个解码器,使得我们可以获得潜在
本显著减轻了基于扩散的文本到音频生成中的记忆问题,而不会表示,然后从中检索出音频作为。潜在扩
影响音频保真度或语义对齐。
译散模型[19],然后通过一个前向过程来表征,该过程中逐步将
IndexTerms—生成音频模型,反记忆化,版权,生成式高斯噪声添加到潜向量中,使用个时间步长,使
中AI,文本到音频,文本到音乐得。然后可以在任意时间步长处采样如下:
1(1)
v1.介绍
4其中和是控制每
3自动音频生成随着多模态文本到音频模型的兴起而迅速发
个时间步长添加噪声量的噪声调度。然后,在反向过程中,在
9展,这些模型可以从用户提供的字幕生成短音频片段[1,2,3]。任意一步,噪声是通过最小化损失
4它们的可访问性降低了技术障碍[4],并且它们在音乐生成方面
1的商业成功引发了伦理问题,特别是在版权和知识产权方面[5,
(2)
9.6]。基于扩散的技术[7]已迅速成为最广泛采用的生成模型之
0一。然而,这些模
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
- 伪标签增强级联框架:LSVOS 2025 VOS 赛道第二次技术报告.pdf
- (正式版)DB51∕T 1867-2014 《袋栽黑木耳生产技术规程》.docx
- (正式版)DB51∕T 2413-2023 《油橄榄密植丰产栽培技术规程》.docx
- (正式版)DB51∕T 2436-2017 《川菜东坡一品肉烹饪工艺技术规范》.docx
- (正式版)DB51∕T 2396-2017 《农村电子商务服务站(点)服务与管理规范》.docx
- (正式版)DB51∕T 2419-2017 《桢楠扦插育苗技术规程》.docx
- CN105145773B 一种无花果曲奇饼干及其制作方法 (江苏农林职业技术学院).docx
- CN105203825A 微测量电极的制作方法和热电势的测量方法及相关装置 (国家纳米科学中心).docx
- CN105137533B 一种啁啾光纤光栅及其制作方法 (南京航空航天大学).docx
- (正式版)DB51∕T 2453-2018 《巴山新居公共管理指南》.docx
- (正式版)DB51∕T 1892-2014 《川西北地区沙化土地治理技术规程》.docx
原创力文档

文档评论(0)