舞动聊天:大型语言模型引导的音乐到舞蹈生成.pdfVIP

  • 1
  • 0
  • 约3.18万字
  • 约 9页
  • 2025-10-16 发布于北京
  • 举报

舞动聊天:大型语言模型引导的音乐到舞蹈生成.pdf

舞动聊天:大型语言模型引导的音乐到舞蹈生成

QingWang,XiaohangYang,YilanDong,JiahaoYang,NaveenRajGovindaraj,

GregorySlabaugh,ShanxinYuan∗

QueenMaryUniversityofLondon

{qing.wang,xiaohang.yang,yilan.dong,jiahao.yang,indaraj,g.slabaugh,shanxin.yuan}@qmul.ac.uk

Abstract

音乐到舞蹈生成的目标是根据音乐输入合成人类舞蹈动

作。尽管最近取得了进展,但由于音乐和舞蹈动作之间

的语义差距仍然存在显著挑战,因为音乐只提供抽象的

提示,但缺乏明确的身体运动描述。由于配对的音乐和

本舞蹈数据稀缺,这一挑战进一步加剧,这限制了模型学

译习多样化舞蹈模式的能力。这些局限性突显出除了音乐

信号之外还需要额外的语义指导。在这篇论文中,我们

中提出了舞动聊天,这是一个新颖的框架,利用大型语言

2模型(LLM)作为编舞者从结构化的音乐描述生成高级

v文本指令。这些指令用作语义引导以弥合音乐和动作之

4

7间的差距。DanceChat将音乐、节拍和文本特征整合到图1:我们的方法借鉴了现实世界的舞蹈学习,其中学

5一个统一的表现形式中,并使用所提出的多模态对齐损

0失训练基于扩散的运动生成器。在AIST++数据集上习者依赖编舞者来诠释音乐。DanceChat利用LLMs作

1.的广泛实验表明,DanceChat在定性和定量方面均优于为伪编舞者将音乐翻译成文本指令,弥合了音乐和动作

6最先进的方法。之间的语义差距。虽然从音乐到动作的映射本质上是一

0

5对多且不适定的,但文本提供了一个更加结构化和可解

2释的中介。

:1介绍

v

i舞蹈长期以来一直是文化中一种强大的表达媒介,Liu2023;Zhangetal.2024a;Huangetal.2024),它

x

r在仪式、社交联系和艺术活动中扮演着核心角色(Car-们旨在仅基于输入音乐来学习可能的舞蹈分布。然而,

a

rollandMoore2008)。在数字时代,舞蹈在社交媒体上这两种方法都没有明确的动作指令,并且只依赖于音乐

蓬勃发展,让人们能够分享创造力并进行全球范围的连元素的抽象性质。这在音乐和运动之间造成了一个广泛

接。深度学习的进步使得可以对这种艺术形式进行计算的语义差距,并使生成与音乐流派相符合并且保持美学

探索,尤其是在音乐到舞蹈生成方面,模型可以自动创质量(Leeetal.2019)的物理上合理的动作的任务变得

建与音乐同步的舞蹈动作。这项技术在娱乐领域具有重复杂。此外,由于动作捕捉成本高昂等原因导致标注舞

要应用,实现了虚拟偶像和虚拟现实中的3D角色的真蹈数据稀缺,使得模型难以学习到广泛且多样的动作分

实化。除了娱乐之外,在机器人、数字人和物理康复等布。在有限的训练样本下,模型难以捕捉人类舞蹈的全

领域中,自动化舞蹈生成也非常有价值,它有助于创造部变异性,从而可能导致输出缺乏风格多样性或无法推

逼真的运动模拟,并支持人机交互。广到未见过的音乐。

大多数现有的音乐到舞蹈生成方法主要分为两类:

文档评论(0)

1亿VIP精品文档

相关文档