- 1
- 0
- 约3.18万字
- 约 9页
- 2025-10-16 发布于北京
- 举报
舞动聊天:大型语言模型引导的音乐到舞蹈生成
QingWang,XiaohangYang,YilanDong,JiahaoYang,NaveenRajGovindaraj,
GregorySlabaugh,ShanxinYuan∗
QueenMaryUniversityofLondon
{qing.wang,xiaohang.yang,yilan.dong,jiahao.yang,indaraj,g.slabaugh,shanxin.yuan}@qmul.ac.uk
Abstract
音乐到舞蹈生成的目标是根据音乐输入合成人类舞蹈动
作。尽管最近取得了进展,但由于音乐和舞蹈动作之间
的语义差距仍然存在显著挑战,因为音乐只提供抽象的
提示,但缺乏明确的身体运动描述。由于配对的音乐和
本舞蹈数据稀缺,这一挑战进一步加剧,这限制了模型学
译习多样化舞蹈模式的能力。这些局限性突显出除了音乐
信号之外还需要额外的语义指导。在这篇论文中,我们
中提出了舞动聊天,这是一个新颖的框架,利用大型语言
2模型(LLM)作为编舞者从结构化的音乐描述生成高级
v文本指令。这些指令用作语义引导以弥合音乐和动作之
4
7间的差距。DanceChat将音乐、节拍和文本特征整合到图1:我们的方法借鉴了现实世界的舞蹈学习,其中学
5一个统一的表现形式中,并使用所提出的多模态对齐损
0失训练基于扩散的运动生成器。在AIST++数据集上习者依赖编舞者来诠释音乐。DanceChat利用LLMs作
1.的广泛实验表明,DanceChat在定性和定量方面均优于为伪编舞者将音乐翻译成文本指令,弥合了音乐和动作
6最先进的方法。之间的语义差距。虽然从音乐到动作的映射本质上是一
0
5对多且不适定的,但文本提供了一个更加结构化和可解
2释的中介。
:1介绍
v
i舞蹈长期以来一直是文化中一种强大的表达媒介,Liu2023;Zhangetal.2024a;Huangetal.2024),它
x
r在仪式、社交联系和艺术活动中扮演着核心角色(Car-们旨在仅基于输入音乐来学习可能的舞蹈分布。然而,
a
rollandMoore2008)。在数字时代,舞蹈在社交媒体上这两种方法都没有明确的动作指令,并且只依赖于音乐
蓬勃发展,让人们能够分享创造力并进行全球范围的连元素的抽象性质。这在音乐和运动之间造成了一个广泛
接。深度学习的进步使得可以对这种艺术形式进行计算的语义差距,并使生成与音乐流派相符合并且保持美学
探索,尤其是在音乐到舞蹈生成方面,模型可以自动创质量(Leeetal.2019)的物理上合理的动作的任务变得
建与音乐同步的舞蹈动作。这项技术在娱乐领域具有重复杂。此外,由于动作捕捉成本高昂等原因导致标注舞
要应用,实现了虚拟偶像和虚拟现实中的3D角色的真蹈数据稀缺,使得模型难以学习到广泛且多样的动作分
实化。除了娱乐之外,在机器人、数字人和物理康复等布。在有限的训练样本下,模型难以捕捉人类舞蹈的全
领域中,自动化舞蹈生成也非常有价值,它有助于创造部变异性,从而可能导致输出缺乏风格多样性或无法推
逼真的运动模拟,并支持人机交互。广到未见过的音乐。
大多数现有的音乐到舞蹈生成方法主要分为两类:
您可能关注的文档
- GenEscape:层级多智能体密室逃脱谜题生成.pdf
- CycleDistill:使用 大型语言模型通过循环蒸馏进行机器翻译的自举过程.pdf
- UltraAD:通过少量样本 CLIP 适应进行细粒度超声异常分类.pdf
- 考虑固定和移动充电器的混合充电站规划与运营强化学习.pdf
- MLOps 与微服务:海事领域的案例研究.pdf
- 学习感知相关的时域包络形态变换.pdf
- 伊奥拉·沃克:一种用于音乐创作的移动脚步检测系统.pdf
- 语言狼人杀:通过语音化的代理狼人游戏框架吸引用户参与.pdf
- 面向患者特定的部分点云到表面补全在图像引导的肝介入术中从术前到术中的配准.pdf
- 从视觉语音识别转移到德语手语的口型识别的迁移学习.pdf
原创力文档

文档评论(0)