一种多模态特征融合的视频描述文本生成方法.pdfVIP

  • 1
  • 0
  • 约2.47万字
  • 约 16页
  • 2023-07-05 发布于四川
  • 举报

一种多模态特征融合的视频描述文本生成方法.pdf

本发明公开了一种多模态特征融合的视频描述文本生成方法,步骤包括:1)建立数据集、验证集及语义词典;2)构建多模态特征融合网络,获得聚合特征;3)利用语法感知视频动作的编码器获得描述语句的主语、谓语和宾语;4)利用动作指导解码器,生成视频的描述文本;5)训练视频文本生成网络模型;6)生成视频的文本描述语句,经过步骤1至步骤5完成网络训练之后,获得视频文本生成网络模型的所有参数,这时,将待描述视频作为输入视频,进行步骤2至步骤4之后,获得待描述视频的文本描述。本发明方法,具有更高的准确性。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113806587 A (43)申请公布日 2021.12.17 (21)申请号 202110975443.2 G06N 3/08 (2006.01) (22)申请日 20

文档评论(0)

1亿VIP精品文档

相关文档