基于注意力机制的跨模态语义对齐研究.pdf

下载文档

0
0
约11.79万字
约 72页
2025-04-07 发布于江西
举报
版权申诉
保障服务

基于注意力机制的跨模态语义对齐研究.pdf

1、本文档共72页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

近年来，以图文为代表的多模态信息在互联网媒体上交叉传播，由此形成的图文数据在

语义内容上相互关联。就图文的局部语义而言，图像中的视觉物体可以与词库中某个词语对

齐，就图文的全局语义而言，图像可以与语料库中一句文本描述对齐。从局部、全局层面实

现上述跨模态语义对齐是多模态认知与学习的关键，同时也是实现“类人智能”的基础。

为实现图文的局部和全局语义对齐，学者们提出了一系列任务，从局部场景理解的视觉

关系检测、场景图生成等，到对图文整体内容理解的图文匹配、视觉问答等。本文为挖掘图

文局部、全局的语义对齐特性，从场景图生成、图文匹配着手展开研究。前者能根据输入图

像生成由主、谓、宾构成的场景图，将图像局部场景与文本词语对齐。后者通过分析图文

整体所传达的语义信息是否一致，来判断图文是否关联，从而将图像整体与文本描述对齐。

然而，目前场景图生成和图文匹配领域还存在一些问题。1）多模态上下文感知能力不足。

模态内的上下文有助于理解局部内容，而模态间的上下文有助于跨模态的语义互补。缺乏这

些多模态上下文信息会导致模型得到次优的多模态特征表示，无法精确对齐图文的局部语义。

2）局部噪声特征影响全局匹配效果。图文整体的匹配程度是从局部特征推断的。但由于局

部噪声特征的存在，导致多模态特征空间受到干扰，影响图文的全局对齐效果。围绕这两个

问题，本文开展了以下相关研究：

（1）针对多模态上下文感知能力不足的问题，本文提出了一种基于跨模态图注意力机

制的场景图生成方法。该方法在引入知识图谱的基础上，通过对齐图像局部内容与知识图谱

文本节点来生成场景图，由此达到对齐图文局部语义的目的。具体而言，本文设计了跨模态

图注意力机制，以充分促进场景图中视觉节点与知识图谱中文本节点之间的交互，从而得到

每个节点对应的模态间上下文信息。同时，采用图转换网络扩大知识图谱中节点的邻域，使

得图卷积机制能捕获更广的模态内上下文信息。通过融合模态内、模态间上下文信息，使得

节点表征能够更加准确。实验结果表明，本文所提出的方法在VisualGenome数据集上取得

了优于基线模型的场景图生成效果，能够更好地在局部层面对齐图文内容。

（2）针对局部噪声特征影响全局匹配效果的问题，本文提出了一种基于混合聚焦注意

力机制的图文匹配方法。该方法通过设计聚焦的交叉注意力机制、聚焦的自注意力机制，在

模态交互过程中聚焦于有用的多模态特征，从而减轻噪声信息的影响。具体而言，在跨模态

交互层面，本文所设计的聚焦的交叉注意力机制通过锐化或者平滑注意力分数，缓解交互过

程中的跨模态噪声。其次，在模态内交互层面，通过聚焦的自注意力机制对局部特征进行打

分，以区分局部特征的重要性，减弱模型对不重要特征的关注程度。实验结果表明，本文所

提出的方法在Flicker30k和MSCOCO数据集上取得了优于基线模型的图文匹配效果，能更

好地实现图文的全局语义对齐。

关键词：跨模态语义对齐，注意力机制，场景图生成，图文匹配

Abstract

Recently,multimodaldatawithrelatedcontentorsemantichasbeenspreadingontheinternet.

Forexample,objectsinimagescanbeassociatedwithwordsinnaturallanguage,whiletheentire

imagecancorrespondtoasentence.Miningsuchlocal/globalsemanticalignmentsisofgreat

importanceforprocessingandanalyzingmultimodaldata,andisalsoakeytorealizingmultimodal

perceptionandlearning.

Scholarshaveproposedaseriesoftaskstoinvestigatethelocalandglobalsemantic

alignmentsbetweenimage

您可能关注的文档

文档评论（0）

论文资源 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于注意力机制的跨模态语义对齐研究.pdf