基于文本和视觉上下文关系时间融合的视频文本检索方法.pdfVIP

  • 0
  • 0
  • 约2.32万字
  • 约 22页
  • 2024-01-17 发布于四川
  • 举报

基于文本和视觉上下文关系时间融合的视频文本检索方法.pdf

基于文本和视觉上下文关系时间融合的视频文本检索方法,涉及视频文本检索。使用预训练模型CLIP的文本编码器和视觉编码器提取文本特征和帧级别视觉特征;使用时间编码器对加入时间位置信息的帧级别视觉信息编码;使用文本上下文注意力TCA根据每个帧和文本的相似度估计每个帧的注意力权重;使用视觉上下文注意力VCA根据视觉上下文关系过滤无关的帧;使用文本上下文相似度和视觉上下文相似度的均值作为检索目标的相似度,根据得到的相似度计算损失函数。相比平均池化,基于文本和视觉上下文计算每个帧权重的方法更有利于排除不必要

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117407561A

(43)申请公布日2024.01.16

(21)申请号202311261929.5G06V10/764(2022.01)

文档评论(0)

1亿VIP精品文档

相关文档