- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DiffRhythm+:带有偏好优化的可控且灵活的
全曲生成
HuakangChen,YuepengJiang,GuobinMa,ChunboHao
ShuaiWang,JixunYao,ZiqianNing,MengMeng,JianLuan,LeiXie
Audio,SpeechandLanguageProcessingLab(ASLP@NPU)
SchoolofIntelligenceScienceandTechnology,NanjingUniversity,Suzhou,China
MiLMPlus,XiaomiInc.
huakang@,lxie@
摘要—歌曲作为音乐艺术的一种核心形式,体现了人类智动地进行音乐创作。这些发展促进了各种应用,如为短
本慧和创造力的丰富性。虽然生成模型领域的近期进展促进了长视频生成个性化音乐、电影配乐、教育工具和治疗实践
译篇幅歌曲创作的进步,但当前用于全曲合成的系统仍面临重[4],[5]。
大挑战,包括数据不平衡、控制不足以及音质不一致等问题。
中音乐生成领域的研究通常涵盖三个主要领域:歌唱
DiffRhythm作为一种基于扩散的开创性模型,在通过生成带
1有表现力的主唱和伴奏的全曲方面推动了该领域的发展。然而,语音合成(SVS)、文本到音乐生成和歌词到歌曲生成。
v
0其性能受到训练数据集不平衡及音乐风格控制有限的限制,导SVS从提供的歌词和乐谱[6]–[10]生成具有表现力的、
9致质量差异显著且创作灵活性受限。为解决这些局限,我们提出类似人类的歌声,支持虚拟歌手、艺术家声音克隆以及
8
2了DiffRhythm+,一种用于可控制和灵活全曲生成的增强扩辅助工具等应用。相比之下,文本到音乐生成根据文本
1散框架。DiffRhythm+利用了一个大幅扩展并平衡的训练数据
.描述、情绪提示或指令[11]–[16]创建乐器音乐。然而,
7集来缓解诸如歌词重复或遗漏等问题,同时促进更丰富音乐技巧
0和表现力的出现。该框架引入了一种多模态风格条件策略,允许当独立使用时,这两种方法都存在固有限制。SVS模型
5用户通过描述性文本和参考音频精确指定音乐风格,从而显著增通常只生成无伴奏的声乐轨道,而文本到音乐系统则生
2
:强创意控制和多样性。我们进一步介绍了直接与用户偏好对齐的成缺乏声乐旋律和歌词的乐器轨道。在现实世界的创作
v
i表现优化方法,引导模型在评估指标上始终输出更受偏好的结中,声乐与伴奏交织在一起以创造出丰富的语义和听觉
x
r果。广泛的实验表明,DiffRhythm+在自然度、编排复杂性和一致性,这对全面的歌曲生成构成了重大挑战。
a
听众满意度方面相较于先前系统取得了显著改进。音频样本可
歌曲生成特别针对这一挑战,通过从原始歌词和风
在https://longwaytog0.github.io/DiffRhythmPlus/获
取。格提示直接合成完整的歌曲(包括人声和乐器)来解
IndexTerms—歌词生成,歌曲创作,扩散模型,多模态,决。当前的方法通常采用基于自回归语言模型(LM)的
偏好优化。方法或基于扩散的技术。基于LM的方法[17]–[21]将歌
您可能关注的文档
- 图 reservoir 中冗余的谱解释-计算机科学-公平算法-图神经网络-算法.pdf
- 提高色素性皮肤病损诊断精度的卷积神经网络案例研究:DermaMNIST 数据集分析-计算机科学-图像分类-卷积神经网络-人工智能.pdf
- 基于深度学习的遥感图像滑坡分类框架-计算机科学-卫星图像-深度学习框架.pdf
- 从颈部到头部:用于头部姿态估计的生物阻抗传感-计算机科学-姿态估计-可穿戴系统.pdf
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解.pdf
- 2024陕西延长石油集团华特新材料股份有限公司社会招聘8人笔试参考题库附带答案详解.pdf
- 2023内蒙古大唐国际锡林浩特矿业有限公司采煤自营专项社会招聘32人笔试参考题库附带答案详解.pdf
- 2024年12月云南大学国际合作与交流处公开招聘(1人)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024年12月2025海南省气象部门公开招聘应届毕业生9人(第3号)笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024年12月甘肃省科学技术情报研究所科研助理公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)