- 24
- 0
- 约1.13万字
- 约 10页
- 2023-12-02 发布于四川
- 举报
本发明公开了一种音频驱动数字人说话的优化方法,对音频信号进行预处理和特征提取,生成音频特征图;对源视频进行人脸检测,提取人脸图像;对人脸图像进行随机区域扰动、归一化和mask处理;将音频特征图和处理后的人脸图像输入到唇音同步模型中,生成模拟与音频信号相对应的唇形人脸图像;计算唇形人脸图像和音频信号对应的真实人脸图像之间的图像重构损失、GAN损失和唇音同步损失,并对它们加权求和来优化模型参数;确定生成的唇形人脸图像和源视频帧的融合mask;比较音频时长与源视频时长,根据实际情况对源视频进行调整,生
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 117152319 A
(43)申请公布日 2023.12.01
(21)申请号 202311120174.7 G06N 3/0464 (2023.01)
原创力文档

文档评论(0)