文本信息引导的注意力机制细粒度图像分类.pdfVIP

  • 0
  • 0
  • 约1.96万字
  • 约 5页
  • 2025-10-21 发布于海南
  • 举报

文本信息引导的注意力机制细粒度图像分类.pdf

总第418期计算机与数字工程Vol.52No.8

ComputerDigitalEngineering

2024年第8期计算机与数字工程2493

2024年第8期

文本信息引导的注意力机制细粒度图像分类∗

潘恒

(江苏科技大学能源与动力学院镇江212114)

摘要自然图像中带有显式语义信息的场景文本,能提供重要的线索用来解决对应的计算机视觉问题,在文本中,一

般专注于利用视觉和文本提示形式的多模式内容来解决细粒度图像分类和检索的任务。论文采用图卷积网络执行多模式

推理,并通过学习显着对象和图像中找到的文本之间的公共语义空间来获得关系增强的特征,通过获得一组增强的视觉和

文本功能,所提出的模型在两个不同的任务(细粒度分类和上下文文本中的图像检索)方面大大优于现有技术。

关键词图像细粒度分析;多模态推理;图神经网络

中图分类号TP242DOI:10.3969/j.issn.1672-9722.2024.08.044

Text-Information-GuidedAttentionMechanismforFine-Grained

ImageClassification

PANHeng

(CollegeofEnergyandPowerEngineering,JiangsuUniversityofScienceandTechnology,Zhenjiang212114)

AbstractScenetextswithexplicitsemanticinformationinnaturalimagescanprovideimportantcluestosolvecorresponding

computervisionproblems.Intexts,theygenerallyfocusonusingmultimodalcontentintheformofvisualandtextualcuestosolve

fine-grainedimageclassificationandretrievaltasks.Specifically,thispaperemploysgraphconvolutionalnetworkstoperformmulti⁃

modalreasoningandobtainrelation-enhancedfeaturesbylearningthecommonsemanticspacebetweenexplicitobjectsandtext

foundinimages,byobtaininganenhancedsetofvisualandtextualfeatures,theproposedmodeloutperformsthestate-of-the-art

byalargemarginontwodifferenttasks(fine-grainedclassificationandimageretrievalincontextualtext).

KeyWordsfine-grainedanalysisofimages,multimodalreasoning,GCN

ClassNumberTP242

提取也是关键。因此,通过利用场景中可用文本实

1引言

例来进行辅助区分,可以提取到图像细粒度的主要

细粒度图像分类,精细化分类识别出物体的大区别特征,然后将文本特征与图像的显著特征相结

类相对较易,但进一步判断精细化的物体的分类名合,形成互补。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档