舞动聊天：大型语言模型引导的音乐到舞蹈生成.pdfVIP

下载本文档

1
0
约3.18万字
约 9页
2025-10-16 发布于北京
举报

舞动聊天：大型语言模型引导的音乐到舞蹈生成.pdf

舞动聊天：大型语言模型引导的音乐到舞蹈生成

QingWang,XiaohangYang,YilanDong,JiahaoYang,NaveenRajGovindaraj,

GregorySlabaugh,ShanxinYuan∗

QueenMaryUniversityofLondon

{qing.wang,xiaohang.yang,yilan.dong,jiahao.yang,indaraj,g.slabaugh,shanxin.yuan}@qmul.ac.uk

Abstract

音乐到舞蹈生成的目标是根据音乐输入合成人类舞蹈动

作。尽管最近取得了进展，但由于音乐和舞蹈动作之间

的语义差距仍然存在显著挑战，因为音乐只提供抽象的

提示，但缺乏明确的身体运动描述。由于配对的音乐和

本舞蹈数据稀缺，这一挑战进一步加剧，这限制了模型学

译习多样化舞蹈模式的能力。这些局限性突显出除了音乐

信号之外还需要额外的语义指导。在这篇论文中，我们

中提出了舞动聊天，这是一个新颖的框架，利用大型语言

2模型（LLM）作为编舞者从结构化的音乐描述生成高级

v文本指令。这些指令用作语义引导以弥合音乐和动作之

7间的差距。DanceChat将音乐、节拍和文本特征整合到图1:我们的方法借鉴了现实世界的舞蹈学习，其中学

5一个统一的表现形式中，并使用所提出的多模态对齐损

0失训练基于扩散的运动生成器。在AIST++数据集上习者依赖编舞者来诠释音乐。DanceChat利用LLMs作

1.的广泛实验表明，DanceChat在定性和定量方面均优于为伪编舞者将音乐翻译成文本指令，弥合了音乐和动作

6最先进的方法。之间的语义差距。虽然从音乐到动作的映射本质上是一

5对多且不适定的，但文本提供了一个更加结构化和可解

2释的中介。

:1介绍

i舞蹈长期以来一直是文化中一种强大的表达媒介，Liu2023;Zhangetal.2024a;Huangetal.2024)，它

r在仪式、社交联系和艺术活动中扮演着核心角色(Car-们旨在仅基于输入音乐来学习可能的舞蹈分布。然而，

rollandMoore2008)。在数字时代，舞蹈在社交媒体上这两种方法都没有明确的动作指令，并且只依赖于音乐

蓬勃发展，让人们能够分享创造力并进行全球范围的连元素的抽象性质。这在音乐和运动之间造成了一个广泛

接。深度学习的进步使得可以对这种艺术形式进行计算的语义差距，并使生成与音乐流派相符合并且保持美学

探索，尤其是在音乐到舞蹈生成方面，模型可以自动创质量(Leeetal.2019)的物理上合理的动作的任务变得

建与音乐同步的舞蹈动作。这项技术在娱乐领域具有重复杂。此外，由于动作捕捉成本高昂等原因导致标注舞

要应用，实现了虚拟偶像和虚拟现实中的3D角色的真蹈数据稀缺，使得模型难以学习到广泛且多样的动作分

实化。除了娱乐之外，在机器人、数字人和物理康复等布。在有限的训练样本下，模型难以捕捉人类舞蹈的全

领域中，自动化舞蹈生成也非常有价值，它有助于创造部变异性，从而可能导致输出缺乏风格多样性或无法推

逼真的运动模拟，并支持人机交互。广到未见过的音乐。

大多数现有的音乐到舞蹈生成方法主要分为两类：

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

舞动聊天：大型语言模型引导的音乐到舞蹈生成.pdfVIP