融合语义增强和位置编码的跨模态图文匹配方法研究.pdfVIP

下载本文档

0
0
约10.07万字
约 50页
2026-03-16 发布于江西
举报

融合语义增强和位置编码的跨模态图文匹配方法研究.pdf

摘要

图文匹配是一种重要的跨模态匹配任务，主要目标在于确定图像和文本

之间的相互对应关系，在图文检索、图像字幕生成、图像问答等领域具有广

泛的应用。然而，由于图像和文本分别采用完全不同的语义表征空间，使得

图文匹配任务面临着如下挑战：1)模态特征上下文感知能力不足。模态内的

上下文有助于理解局部内容，缺乏这些模态内的上下文信息会导致模型得到

次优的多模态特征表示，无法精确对齐图文的局部语义；2)局部噪声特征影

响图文匹配效果。图文整体的匹配程度是从局部特征推断的。但由于局部噪

声特征的存在，导致多模态特征空间受到干扰，影响图文的全局对齐效果。

针对模态特征上下文感知能力不足的问题，本文提出了一种基于图注意

力机制的模态语义增强方法。该方法通过构建图像和文本的无向全连通图，

使得图像节点和文本节点模态间建立关系，然后基于图注意力机制动态的去

学习节点之间的重要性关系，从而学习到模态内更加准确的上下文信息。通

过融合模态内上下文信息就可以获得更加准确的节点表征。通过在Flickr30k

和MS-COCO两个数据集上的结果验证其有效性。

针对局部噪声特征影响全局匹配效果的问题，本文提出了融合语义增强

和位置编码的图文匹配方法。该方法的核心是设计了一种融合语义增强和位

置编码的自适应相关性可学习机制。语义增强提高了模态特征的语义表征，

而位置编码则是采用绝对位置编码，使得图像特征获得了空间语义信息，进

一步提高了图像特征的语义表征。在此基础上，通过最小化相关性区分的错

误概率自适应学习最优阈值，进一步优化相关和不相关图像-文本片段特征的

相似度分布。阈值将以更高的可区分性改善特征学习，促进两个分布更好地

分离，从而学习更好的语义对齐来测量图像-文本相似性。最终，所提方法在

Flickr30k和MS-COCO两个数据集上均优于基线模型，实验结果验证了所

提方法的有效性。

关键词：跨模态图文匹配；图注意力；位置编码；相关性阈值

Abstract

Image-textmatchingisanimportantcross-modalmatchingtask.Themain

goalistodeterminethemutualcorrespondencebetweenimagesandtext.Ithas

wideapplicationsinimage-textretrieval,imagesubtitlegeneration,imagequestion

andanswerandotherfields.However,sinceimagesandtextsadoptcompletely

differentsemanticrepresentationspaces,theimage-textmatchingtaskfacesthe

followingchallenges:1)Insufficientcontextawarenessofmodalfeatures.The

contextwithinthemodalityhelpstounderstandlocalcontent.Thelackof

contextualinformationwithinthesemodalitieswillresultinthemodelobtaining

sub-optimalmulti-modalfeaturerepresentationandbeingunabletoaccurately

alignthelocalsemanticsoftheimageandtext;2)Localnoisefeaturesaffectthe

imageandtext.matchingeffect.Theoverallmatchingdegreeoftheimageandtext

isinferredfromlocalfeatures.However,duetotheexistenceoflocalnoisefeatures,

themulti-modalf

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

融合语义增强和位置编码的跨模态图文匹配方法研究.pdfVIP