网站大量收购独家精品文档,联系QQ:2885784924

基于注意力机制的跨模态语义对齐研究.pdf

基于注意力机制的跨模态语义对齐研究.pdf

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

近年来,以图文为代表的多模态信息在互联网媒体上交叉传播,由此形成的图文数据在

语义内容上相互关联。就图文的局部语义而言,图像中的视觉物体可以与词库中某个词语对

齐,就图文的全局语义而言,图像可以与语料库中一句文本描述对齐。从局部、全局层面实

现上述跨模态语义对齐是多模态认知与学习的关键,同时也是实现“类人智能”的基础。

为实现图文的局部和全局语义对齐,学者们提出了一系列任务,从局部场景理解的视觉

关系检测、场景图生成等,到对图文整体内容理解的图文匹配、视觉问答等。本文为挖掘图

文局部、全局的语义对齐特性,从场景图生成、图文匹配着手展开研究。前者能根据输入图

像生成由主、谓、宾构成的场景图,将图像局部场景与文本词语对齐。后者通过分析图文

整体所传达的语义信息是否一致,来判断图文是否关联,从而将图像整体与文本描述对齐。

然而,目前场景图生成和图文匹配领域还存在一些问题。1)多模态上下文感知能力不足。

模态内的上下文有助于理解局部内容,而模态间的上下文有助于跨模态的语义互补。缺乏这

些多模态上下文信息会导致模型得到次优的多模态特征表示,无法精确对齐图文的局部语义。

2)局部噪声特征影响全局匹配效果。图文整体的匹配程度是从局部特征推断的。但由于局

部噪声特征的存在,导致多模态特征空间受到干扰,影响图文的全局对齐效果。围绕这两个

问题,本文开展了以下相关研究:

(1)针对多模态上下文感知能力不足的问题,本文提出了一种基于跨模态图注意力机

制的场景图生成方法。该方法在引入知识图谱的基础上,通过对齐图像局部内容与知识图谱

文本节点来生成场景图,由此达到对齐图文局部语义的目的。具体而言,本文设计了跨模态

图注意力机制,以充分促进场景图中视觉节点与知识图谱中文本节点之间的交互,从而得到

每个节点对应的模态间上下文信息。同时,采用图转换网络扩大知识图谱中节点的邻域,使

得图卷积机制能捕获更广的模态内上下文信息。通过融合模态内、模态间上下文信息,使得

节点表征能够更加准确。实验结果表明,本文所提出的方法在VisualGenome数据集上取得

了优于基线模型的场景图生成效果,能够更好地在局部层面对齐图文内容。

(2)针对局部噪声特征影响全局匹配效果的问题,本文提出了一种基于混合聚焦注意

力机制的图文匹配方法。该方法通过设计聚焦的交叉注意力机制、聚焦的自注意力机制,在

模态交互过程中聚焦于有用的多模态特征,从而减轻噪声信息的影响。具体而言,在跨模态

交互层面,本文所设计的聚焦的交叉注意力机制通过锐化或者平滑注意力分数,缓解交互过

程中的跨模态噪声。其次,在模态内交互层面,通过聚焦的自注意力机制对局部特征进行打

分,以区分局部特征的重要性,减弱模型对不重要特征的关注程度。实验结果表明,本文所

提出的方法在Flicker30k和MSCOCO数据集上取得了优于基线模型的图文匹配效果,能更

好地实现图文的全局语义对齐。

关键词:跨模态语义对齐,注意力机制,场景图生成,图文匹配

Abstract

Recently,multimodaldatawithrelatedcontentorsemantichasbeenspreadingontheinternet.

Forexample,objectsinimagescanbeassociatedwithwordsinnaturallanguage,whiletheentire

imagecancorrespondtoasentence.Miningsuchlocal/globalsemanticalignmentsisofgreat

importanceforprocessingandanalyzingmultimodaldata,andisalsoakeytorealizingmultimodal

perceptionandlearning.

Scholarshaveproposedaseriesoftaskstoinvestigatethelocalandglobalsemantic

alignmentsbetweenimage

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档