- 0
- 0
- 约4.4万字
- 约 12页
- 2026-02-06 发布于江西
- 举报
第48卷第10期北京工业大学学报Vol.48No.10
2022年10月JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGYOct.2022
面向跨模态数据协同分析的视觉问答方法综述
崔摇政,胡永利,孙艳丰,尹宝才
(北京工业大学信息学部,北京摇100124)
摘摇要:协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义
和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极
大的进步,进而产生了视觉问答(visualquestionanswering,VQA)这一课题.VQA系统利用视觉信息和文本形式的
问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按
照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最
新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望.
关键词:跨模态数据;深度学习;视觉问答;数据融合;跨模态注意力;知识推理
中图分类号:U461;TP308文献标志码:A文章编号:0254-0037(2022)10-1088-12
doi:10.11936/bjutxb2021040030
VisualQuestionAnsweringMethodsofCross鄄modalData
CollaborativeAnalysis:aSurvey
CUIZheng,HUYongli,SUNYanfeng,YINBaocai
(FacultyofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China)
Abstract:Collaborativeanalysisandprocessingofcross鄄modaldataarealwaysdifficultandhottopicsin
thefieldofmodernartificialintelligence.Themainchallengeisthesemanticandheterogeneousgapof
cross鄄modaldata.Recently,withtherapiddevelopmentofdeeplearningtheoryandtechnology,
algorithmsbasedondeeplearninghavemadegreatprogressinthefieldofimageandtextprocessing,and
thentheresearchtopicofvisualquestionanswering(VQA)hasemerged.VQAsystemusesvisual
informationandtextquestionsasinputtogetcorrespondinganswers.Thecoreofthesystemisto
understandandprocessvisualandtextinformationcooperatively.Therefore,VQAmethodswerereviewed
indetail.Accordingtotheprincipleofmethods,theexistingVQAmethodsweredividedintothree
categoriesincludingdataf
原创力文档

文档评论(0)