基于多头交叉注意力的表示増强视频问答算法.pdf

基于多头交叉注意力的表示増强视频问答算法.pdf

摘要

摘要

视频问答任务旨在让机器具备理解视频内容、推理时序信息和基于自然语言问题生成

准确答案的能力。针对现有视频问答算法存在的跨模态特征交互不足、复杂视频场景适应

性差、视频的全局语义信息利用不充分以及跨模态语义不一致等问题,提出基于多头交叉

注意力的表示增强视频问答算法,论文的主要工作如下:

(1)针对现有视频问答算法存在跨模态特征交互不充分的问题,构建引入多头交叉注

意力的视频级与片段级特征融合的视频问答算法(MHCA)。该算法在

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档