基于填充渲染器以及编码器的说话人视觉配音方法及系统.pdfVIP

  • 1
  • 0
  • 约2.4万字
  • 约 19页
  • 2024-02-14 发布于四川
  • 举报

基于填充渲染器以及编码器的说话人视觉配音方法及系统.pdf

本发明实施例提供一种基于填充渲染器以及编码器的说话人视觉配音方法及系统。该方法包括:将说话人的多个参考面部图像输入至训练的语义编码器,得到语义潜在编码;利用基于Conformer的参考编码器从语义潜在编码中提取面向于说话人的面部纹理信息;利用音频编码器从配音音频中提取音频潜在编码;利用基于Conformer的运动生成器将面部纹理信息以及音频潜在编码映射处理,得到多个视觉潜在编码;将多个视觉潜在编码输入至训练的填充渲染器,预测出说话人讲述配音音频的多个合成图像;通过多个合成图像以及配音音频生成视觉

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117557797A

(43)申请公布日2024.02.13

(21)申请号202311435626.0H04N21/81(2011.01)

文档评论(0)

1亿VIP精品文档

相关文档