基础问题生成结合问题嵌入用于视频问答-计算机科学-大语言模型-时空信息-视频问答-多模态.pdfVIP

下载本文档

0
0
约2.17万字
约 7页
2025-07-28 发布于中国
举报
版权申诉

基础问题生成结合问题嵌入用于视频问答-计算机科学-大语言模型-时空信息-视频问答-多模态.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基础问题生成结合问题嵌入用于视频问答

Ju-YoungOh,Ho-JoongKim,andSeong-WhanLee

Abstract—视频问答（VQA）是一种多模态任务，需要对

视频进行解读以回答给定的问题。现有的VQA方法主要利用问

题和答案（QA）对来学习视频内容的时空特征。然而，这些标

注通常是事件中心的，不足以捕捉每个视频的更广泛背景。缺

少诸如对象类型、空间布局和描述性属性等关键细节限制了模

型仅能学习到片段化的场景表示。这个问题限制了模型的一般

化能力和高级推理能力。本文中，我们提出了一种结合问题嵌入

用于视频问答的基本问题生成方法（FIQ），这是一种旨在通过

增强对视频的基本理解来加强模型推理能力的新方法。FIQ基

本于从视频中提取的描述生成QA对，丰富了训练数据中的基

本场景信息。生成的QA对使模型能够理解主要背景，从而增

译强了泛化能力和推理能力。此外，我们引入了一个VQ-CAlign

中模块，该模块帮助任务特定的问题嵌入与视觉特征结合，确保

保留关键领域特定细节以增加下游任务的适应性。在SUTD-

vTrafficQA上的实验表明，我们的FIQ相比现有的基准方法达

6到了最先进的性能。

1IndexTerms—时空信息，视频问答，多模态

8Fig.1.现有数据集仅关注视频的事件中心信息，但不涉及视频的基本信

2息，如物体的形状、颜色和方向。

1I.介绍

7视频问答（VQA）是一项结合了计算机视觉和自觉和文本编码器，并且CLIP提供了这两种编码器。

5然语言处理的多模态任务[1]，要求模型根据对视频中FrozenBiLM[10]引入了一个轻量级模块，该模块通过

:动态事件的理解来回答给定的问题。由于其在教育、掩码语言建模将冻结的来自CLIP的图像编码器与冻

i医疗保健和监控系统等各个领域中的重要性和广泛应结的双向语言模型连接起来，以实现有效的多模式推

r用，VQA受到了极大的关注[2]。尽管近年来现有工理。ViLA[11]提出了QFormer-Distiller模块，通过从

作的进展显著且任务应用广泛，自然语言与视觉特征BLIP[12]中教授Q-Former来增强两种模态之间的对

的对齐仍然是一项挑战。最近的研究在此领域展示了齐。尽管CLIP提供了强大的跨模式特征，但它是在静

显著的进步，各种工作[3]–[5]通过将两种模态对齐取态图像上进行预训练的，因此依赖于文本注释来提供

得了显著成果。时空上下文。然而，当前的VQA数据集通常提供以事

现有的VQA方法采用基于CLIP的编码器来利件为中心的文本注释，经常忽略诸如对象身份、形状

用其从大规模数据预训练知识中获得的图像-文本对或颜色等基本场景属性。虽然以事件为中心的注释已

齐能力。尽管存在专门针对视频数据的基于视频的经提供了语义线索，但它们仅提供部分场景表示，从

编码器[6]–[9]，视觉-文本对齐需要预先训练好的视而限制了模型只能获得每个场景的部分理解。

*ThisresearchwassupportedbytheInstituteofInformation图1展示了仅在事件中心注释上训练的VQA模

CommunicationsTechnologyPlanningEvaluation(IITP)grant,型专注于部分场景的一个示例。该模型专注于发生碰

fundedbytheKoreagovernment(MSIT)(No.RS-2019-II190079

(Artif

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基础问题生成结合问题嵌入用于视频问答-计算机科学-大语言模型-时空信息-视频问答-多模态.pdfVIP