预览 WB-DH:面向全身数字人平台生成全身说话 avatar 视频的方向.pdfVIP

  • 0
  • 0
  • 约2.21万字
  • 约 7页
  • 2026-03-06 发布于北京
  • 举报

预览 WB-DH:面向全身数字人平台生成全身说话 avatar 视频的方向.pdf

预览WB-DH:面向全身数字人平台生成全身说话avatar视频的方向

ChaoyiWang,YifanYang,JunPei,LijieXia,JianpoLiu,XiaobingYuan,XinhanDi

ShanghaiInstituteofMicrosystemandInformationTechnology,CAS,China

ShanghaiJiaoTongUniversity,ChinaIndependentResearcher,China

{chaoyiwang,peijun,xialj,liujp,sinoiot}@,v1o2058@,deepearthgo@

Abstract2.相关工作

本从单张肖像创建逼真的、完全可动画化的全身虚拟形2.1.基于扩散的视频生成

象具有挑战性,因为捕捉细微表情、身体动作和动态背

译一些基于扩散的框架推动了视频合成的边界。初

景存在局限。当前的评估数据集和指标在处理这些复杂

中问题时显得不足。为了填补这一空白,我们引入了全身步工作将图像扩散模型扩展到了时间领域[9]。在此基

1基准数据集(WB-DH),这是一个开源的多模态基准测础上,后续研究加入了条件信息以生成高质量的内容

v[19,28]。其他研究则关注效率和规模[6,8,10,15,16,

1试,用于评估可动画化全身虚拟形象生成的效果。关键

9特性包括:(1)详细的多模态注释以提供精细指导,(2)26,36,37],这一点在大型数据集上的稳定视频扩散中

8得到了体现[1]。然而,当前的视频生成模型并不能确

8灵活的评估框架,以及(3)公开访问数据集和工具位于

0保角色的声音与其全身视觉表现相一致。这一差距突

./deepreasonings/全身基准测试。

8显了需要整合音频与合成全身视频生成基准的需求。

0

5

2

:1.介绍2.2.音频驱动的讲话人头生成

v

i

x基于扩散的视频生成技术已成为合成真实视频的最近,通过专门的口型同步判别器实现了准确的唇

r

a强大方法[28]。研究人员正在探索级联和潜在空间扩形同步,以指导基于GAN的脸部生成器[22,24,39]。

散管道以缓解这些问题[19,34,38]。在数字人领域此外,扩散模型在这个领域取得了显著进展[3,29]。然

中[22,24],当前的扩散模型对于合成逼真的全身运动而,与扩散视频模型一样,现有的说话头像技术通常仅

和外观超出了实际应用范围[4,5,7,12,21,31],并且限于头部、肩膀和上半身区域[4,5,7,12,13,18]。这

很少将音频用于语音同步或全身手势生成。这一差距种脱节强调了需要一个全面的评估平台——全身数字

促使需要集成系统来处理高质量的全身动作和语音生人基准——来评估并促进将音频驱动的脸部动画与全

成,这正是整体数字人基准的重点。身视频生成相结合的方法。

然而,实现完全自然的会说话全身虚拟形

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档