多模态对齐与交叉注意 GRU 用于细粒度视频理解-计算机科学-大型语言模型-多模态.pdfVIP

下载本文档

1
0
约1.52万字
约 7页
2025-07-26 发布于北京
举报
版权申诉

多模态对齐与交叉注意 GRU 用于细粒度视频理解-计算机科学-大型语言模型-多模态.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多模态对齐与交叉注意GRU用于细粒度视频理解

NAMHOKIMJUN-HWAKIM

KoreanBroadcastingSystem(KBS)DepartmentofArtiﬁcialIntelligence

Seoul,KoreaKonyangUniversity

namho96@kbs.co.krDaejeon,Korea

junhwakim@konyang.ac.kr

本ABSTRACT

译细粒度的视频分类需要理解复杂的时空和语义线索，这些往往超出了单一模态的能力。在本

中文中，我们提出了一种多模态框架，该框架使用基于GRU的序列编码器和跨模态注意力机

制融合视频、图像和文本表示。模型通过结合分类或回归损失进行训练（取决于任务），并

1通过特征级增强和自编码技术进一步正则化。为了评估我们框架的通用性，我们在两个具有

1挑战性的基准数据集上进行了实验：DVD数据集用于现实世界的暴力检测，Aff-Wild2数据

3集用于愉悦度-唤醒度估计。我们的结果显示，提出的融合策略显著优于单模态基线模型，其

5中跨注意力和特征增强对鲁棒性和性能的提高做出了重要贡献。

7Keywords多模态大型语言模型剪辑暴力检测价值-唤醒估计

:1介绍

x本研究旨在提升复杂场景分析能力，以满足暴力检测和情感状态估计等高要求的视频理解任务。尽管基于视

a觉的架构，包括卷积神经网络（CNN）和转换器模型，在视觉识别方面取得了显著进展，但在捕捉细微语义

差异方面往往表现不足，特别是在细粒度或情感丰富的场景中更是如此。这些限制在视频环境中进一步加剧，

因为在视频环境中必须跨多个帧联合建模空间-时间依赖关系。

为了缓解这些限制，先前的研究探索了多模态信息（包括视觉、文本和音频）的整合，以提供全面场景理解

的互补线索。例如，像CLIP这样的方法对齐视觉和文本嵌入，以提高联合视觉语言任务中的分类或检索准

确性[1]。同样，在情感行为分析中的挑战，如ABAW[2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17]，已经

证明结合面部表情、音频和上下文信息对于稳健的情绪识别[9,2]是有用的。尽管有了这些进步，许多现有

的模型仍然经常依赖复杂的基于变压器的融合机制，虽然有效，但在训练和推理过程中通常会产生高昂的计

算成本和复杂性。

在本文中，我们提出了一种稳健且高效的多模态融合框架，该框架结合了三种并行的模态：捕捉运动动态的

视频片段、提供丰富空间细节的采样图像帧以及从关键帧提取的传达显式语义信息的文字描述。每个模态都

通过一个冻结的预训练编码器进行处理——具体来说，视频使用3DCNN，图像使用视觉变压器，文本使用

语言编码器——然后是基于GRU的序列编码器来建模各自流中的时间特征。

我们采用双向交叉注意力机制来精细地整合特定模态的特征，促进视频、图像和文本表示之间的动态且上下

文感知的交互。生成的融合嵌入随后通过浅层多层感知器进行最终分类或回归。模型训练由复合损失函数引

页眉运行标题页眉运行标题页眉运行标题

导：交叉熵用于分类任务（例如，在DVD数据集上的暴力检测），均方误差应用于回归任务（例如，在Aff-Wild2

数据集上的效价唤醒估计）。

为了验证我们的方法，我们在两个具有

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

多模态对齐与交叉注意 GRU 用于细粒度视频理解-计算机科学-大型语言模型-多模态.pdfVIP