一种将音频片段映射为人脸嘴型关键点的方法.pdf

下载文档

33
0
约1.56万字
约 11页
2020-09-14 发布于湖南
举报
版权申诉
保障服务

一种将音频片段映射为人脸嘴型关键点的方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 111429885 A (43)申请公布日 2020.07.17 (21)申请号 202010134872.2 (22)申请日 2020.03.02 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人金福生　秦勇　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人王民盛 (51)Int.Cl. G10L 15/02(2006.01) G10L 15/06(2013.01) G10L 15/25(2013.01) G10L 25/30(2013.01) 权利要求书2页说明书7页附图1页 (54)发明名称一种将音频片段映射为人脸嘴型关键点的方法 (57)摘要本发明涉及一种将音频片段映射为人脸嘴型关键点的方法，属于人工智能中的多模态交互及音频信息转化技术领域。所述方法从带音频的视频中分别提取音频和视频；提取得到的视频数据中每帧人脸图像中嘴型关键点信息，并记录关键点的坐标；对音频数据提取Fbank特征，使用主成分分析对提取的嘴型关键点信息进行降维，去除冗余信息，使用1层简单循环神经网络，不进行时延处理，直接进行从音频信息到嘴型关键点之间的映射关键关系建模。所述方法使用的神经网络模型的复杂度更低，从而降低了模型训练难 A 度，减少了模型的训练时间，使得前向推断速度 5 更快，比现有方法具有更广阔的应用场景。 8 8 9 2 4 1 1 1 N C CN 111429885 A 权　利　要　求　书 1/2页 1.一种将音频片段映射为人脸嘴型关键点的方法，其特征在于：包括如下步骤：步骤一、收集大量带有音频的高分辨率交谈视频数据，在各类视频网站进行下载并收集这些带音频的视频；步骤二、从步骤一下载并收集的带音频的视频中分别提取音频和视频，分别得到音频数据和视频数据；步骤三、提取步骤二得到的视频数据中每帧人脸图像的嘴型关键点信息，并记录关键点的坐标；步骤四、提取步骤二得到的音频数据中的fbank特征；步骤五、使用主成分分析的方法对步骤三提取的嘴型关键点信息进行降维，得到降维度后的嘴型关键点信息；步骤六、使用步骤四得到的fbank特征和步骤五得到的降维度后的嘴型关键点信息组成训练数据集；步骤七、使用一层简单循环神经网络模型作为将音频信息映射为嘴型关键点的映射模型，并使用步骤六得到的训练数据集对模型进行训练；步骤八、使用步骤七训练好的模型进行前向推断。 2.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法，其特征在于：步骤一中，交谈视频数据中包含音频和视频，且为单一人物的演讲视频。 3.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法，其特征在于：步骤一具体为：从公开的视频网站中寻找单一人物的演讲视频，并对寻找到的这个人的所有演讲视频进行挑选，选择演讲内容比较连贯，停顿较少且整个视频中面部前后左右晃动较少的视频作为收集到的数据。 4.根据权利要求1所述的一种将音频片段映射为人脸嘴型关键点的方法，其特征在于：步骤二中，提取音频和视频使用开源工具FFMPEG；步骤二具体为：首先下载FFMPEG工具，根据安装说明，将其安装在windows10操作系统上，然后依次点击导入、提取视频、提取音频，将每个视频的音频和视频分离