一种多模态会议数据结构化方法、装置及计算机设备.pdfVIP

  • 2
  • 0
  • 约2.7万字
  • 约 22页
  • 2023-05-05 发布于四川
  • 举报

一种多模态会议数据结构化方法、装置及计算机设备.pdf

本发明公开了一种多模态会议数据结构化方法、装置及计算机设备,该方法包括:S1,构建音视频多模态会议数据集;S2,构建多模态声源定位网络进行预训练;S3,利用多模态声源定位网络对音视频多模态会议音视频序列形状重整、数据扩展、匹配融合预处理,获得会场声源热图;S4,构建和训练人脸识别网络,对视频帧生成人脸定位框和人脸特征向量;S5,根据会场声源热图与人脸定位框的质心距离筛选发言人的视觉信息;S6,将音频流编码为语音特征向量,通过声纹识别得到发言人身份标签;S7,构建基于说话人身份的语音分割模型;S8

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114298170 A (43)申请公布日 2022.04.08 (21)申请号 202111512455.8 G10L 17/00 (2013.01)

文档评论(0)

1亿VIP精品文档

相关文档