基于跨模态交互的视频时刻定位与高光片段检测算法.pdf

基于跨模态交互的视频时刻定位与高光片段检测算法.pdf

摘要

摘要

视频时刻定位与高光片段检测是视频分析领域中重要的研究方向,旨在根据文本查

询来定位视频中的相关时刻,并预测每个片段的显著性分数,得分高的被选为高光片段。

然而,当前视频时刻定位与高光片段检测的研究仍存在诸多不足。首先,现有方法不能

充分融合视频时序信息与文本语义细节,缺乏灵活高效的跨模态交互机制。其次,由于

查询缺乏明确的位置信息,模型在训练初期难以有效匹配查询与真实时刻,导致训练收

敛速度较慢。此外,现有多模态模型在时序依赖建模和模态间

文档评论(0)

1亿VIP精品文档

相关文档