CN115131405B 一种基于多模态信息的发言人跟踪方法及系统（沈阳航空航天大学）.docxVIP

下载本文档

0
0
约2.39万字
约 38页
2026-01-12 发布于重庆
举报

CN115131405B 一种基于多模态信息的发言人跟踪方法及系统（沈阳航空航天大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115131405B(45)授权公告日2025.07.01

(21)申请号202210792440.X

(22)申请日2022.07.07

(65)同一申请的已公布的文献号申请公布号CN115131405A

(43)申请公布日2022.09.30

(73)专利权人沈阳航空航天大学

地址110136辽宁省沈阳市道义经济开发

区道义南大街37号专利权人中国人民大学

(72)发明人张德园刘桃范胜旭田健鲲杜小勇

(74)专利代理机构沈阳东大知识产权代理有限公司21109

专利代理师李在川

(51)Int.CI.

G06T7/246(2017.01)

GO6V10/10(2022.01)

GO6V10/20(2022.01)

GO6V10/62(2022.01)

GO6V10/74(2022.01)

GO6V10/774(2022.01)GO6V10/82(2022.01)

GO6V40/16(2022.01)G10L25/51(2013.01)

G10L25/78(2013.01)

(56)对比文件

CN114298170A,2022.04.08CN111507218A,2020.08.07审查员冯冬梅

权利要求书5页说明书11页附图4页

(54)发明名称

一种基于多模态信息的发言人跟踪方法及系统

(57)摘要

CN115131405B本发明公开了一种基于多模态信息的发言人跟踪方法及系统，涉及发言人跟踪领域。可应用于线下会议或线上会议的在线的发言人跟踪任务，能够快速、准确地定位发言人，给出发言人特写；也可用于在提供的视频中标注出视频每个部分中的发言人的非在线任务。在同一画面出现多个人脸且每个人轮流交替发言的情况下，利用输入的图像及对应的音频信息计算出图像中每个人脸的发言唇动得分、音貌匹配得分以及唇形同步得分，并根据图像中的每个人脸得分定位具体发言人。同时支持提前录入注册配对的人声人

CN115131405B

先验数据库

图像的

面貌信息

特征提取模块

语音的

内容信息

隔形用步供块

特征提取模块

说话唇动识别模块

图像的

唇部内容信息特征提取模块

身份信息

特征提取模块

人脸检测与分姐模块

→音貌匹配模块

CN115131405B权利要求书1/5页

1.一种基于多模态信息的发言人跟踪系统，其特征在于：所述系统包括：语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库；

采用语音的身份信息特征提取模块，对输入的音频提取得到语音身份信息特征向量；

采用语音的内容信息特征提取模块，对输入的音频提取得到语音内容信息特征向量；

采用图像的面貌信息特征提取模块，依次将r张输入图像face…face”提取得到逐帧人脸面貌特征向量，并将每张图像输入到人脸图像质量计算模块中，计算得到每张输入图像质量得分，将r张图像的质量得分与r个逐帧人脸面貌特征向量在通道维度上进行拼接，提取得到人脸面貌特征向量；

采用图像的内容特征提取模块，将r张输入图像在时间维度上进行拼接，得到拼接后的图像拼接向量；将每张输入图像单独输入到人脸图像质量计算模块，得到每张输入图像质量得分，将每张输入图像的质量得分复制扩展后与图像拼接向量进行拼接和特征提取，得到人脸唇部内容特征向量；

人脸图像质量计算模块，将单张彩色人脸图像输入到卷积神经网络，得到图像质量得分；

人脸检测与分组模块，逐帧检测视频片段中的人脸，给出每个人脸的矩阵信息，将属于同一个人的人脸矩阵分为一组，并对缺失人脸信息的帧进行人脸信息补全，得到完整的人脸矩阵序列；

唇形同步模块，输入人脸唇部内容特征向量与语音内容信息特征向量，利用余弦相似度计算两个特征向量的相似度，得到唇形同步得分；

说话唇动识别模块，将人脸唇部内容特征向量输入到一个或多个具有激活函数的全连接层后，再输入到带有Sigmoid激活函数的全连接层，得到说话唇动得分；

音貌匹配模块，输入人脸面貌信息特征向量与语音身份信息特征向量，利用L1距离计算两个特征向

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN115131405B 一种基于多模态信息的发言人跟踪方法及系统（沈阳航空航天大学）.docxVIP