CN117194710B 多粒度视频检索方法及装置 (电子科技大学).docxVIP

  • 0
  • 0
  • 约3.39万字
  • 约 49页
  • 2026-01-20 发布于重庆
  • 举报

CN117194710B 多粒度视频检索方法及装置 (电子科技大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN117194710B(45)授权公告日2025.07.11

(21)申请号202311228436.1

(22)申请日2023.09.21

(65)同一申请的已公布的文献号申请公布号CN117194710A

(43)申请公布日2023.12.08

(73)专利权人电子科技大学

地址611731四川省成都市高新西区高新

区(西区)西源大道2006号

专利权人电子科技大学广东电子信息工程

研究院

(51)Int.CI.

GO6F16/735(2019.01)

GO6F16/783(2019.01)

GO6F16/9535(2019.01)

GO6N3/0455(2023.01)

GO6N3/0895(2023.01)

(56)对比文件

CN115757713A,2023.03.07CN115408558A,2022.11.29审查员朱琦

(72)发明人陈智国蒋寻朱利卿徐行汪政杨阳

(74)专利代理机构北京超凡宏宇知识产权代理有限公司11463

专利代理师杜杨

权利要求书3页说明书18页附图5页

(54)发明名称

多粒度视频检索方法及装置

(57)摘要

CN117194710B本申请实施例提出一种多粒度视频检索方法及装置,属于跨模态内容检索领域,通过该检索算法,基于待查询文本的句子级文本特征、视频库中每个视频数据的粗粒度视频特征和细粒度视频特征,进行多中心和多尺度的双分支协同特征处理,得到待查询文本与每个视频数据间的相似度数据,以此得到视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果。检索算法采用双分支协同策略,设计粗粒度浏览分支和细粒度凝视分支,采用基于焦点引导的协同检索策略浏览分支和凝视分支,并引入混合协同对比学习策略,显著提高了弱监督条件下

CN117194710B

对训练数据集中的每个样本对进行处理,

对训练数据集中的每个样本对进行处理,

得到每个样本对中的查询文本样本对应的

句子缓文本特征,以及每个样本对中的视

频样本的愤级特征

从训炼数据集中选取预设数量个样本对作

为训练样本,并将毒个训练样本对输入初

始检索算法

基于初始采用Transformer模型,对桢级特S

征进行处理,得到细粒度视频样本特征和粗粒度视频样本特征

通过初始测览分支,基于多个中心点和多

个尺度,构建训练视频的多个粗粒度样本

粒度样本候选片段中得到粗粒度样本最优

结束训练,得到成熟的检索算法

本特征,从多个细粒度样本候选片段中得

到细粒度样本最优片段,并计算出训练视

频与训练查询文本间的细粒度相似度

所有训练样本中的训练视频,计算关于粗

粒度的第一对比学习损失和关于细粒度的

第二对比学习摄失

结合第一对比学习损失和第二对比学习损

失,得到混合协同对比学习损失,基于混

合协同对比学习损失,采用优化算法对初

始检索算法的参数进行更新

CN117194710B权利要求书1/3页

2

1.一种多粒度视频检索方法,其特征在于,所述方法包括:

对待查询文本进行处理,得到所述待查询文本对应的句子级文本特征;

获取视频库中每个视频数据的特征信息;其中,所述特征信息包括粗粒度视频特征和细粒度视频特征,所述粗粒度视频特征为对所述细粒度视频特征进行下采样得到;

将所述句子级文本特征输入预先训练的检索算法;

通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据;其中,所述相似度数据包括粗粒度相似度和细粒度相似度;

根据所述相似度数据,得到检索结果;其中,所述检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频;

所述检索算法包括浏览分支和凝视分支;

所述通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据的步骤,包括:

通过所述浏览分支,基于选取的多个中心点和多个尺度,构建每个所述视频数据的多个粗粒度候选片段,并结合所述粗粒度视频特征和所述句子级文本特征,从所述多个粗粒度候选片段中得到粗粒度最优片段,并计算出所述待查询文本与每个所述视频数据间的粗粒度相似度;

通过

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档