- 0
- 0
- 约3.78万字
- 约 50页
- 2026-01-21 发布于北京
- 举报
用于视觉问答的堆叠注意力机制
计算机科学系斯坦福大
学bingbin@stanford.edu余
文妮计算机科学系
斯坦福大学
weiniyu@stanford.edu
我们的项目探讨了在给定图像的情况下对多项选择题进行视觉问答。基于使
用不同机制的工作,我们首先构建了一个使用GloVe词嵌入[3]和ResNet图像特征
[4],的词袋模型与多层感知机[1,2],该模型优于原始的带有注意力机制的LSTM模
型[5]。我们进一步扩展了这一模型,通过用LSTM替换语言模型并添加堆叠的空间
注意力层[6]来捕捉单词和图像区域之间的交互。我们在Visual7W数据集[5]上通过
实验多种不同的设置,研究了VQA任务的不同方面,并获得了有趣的结果。最后,
我们分析了哪些选项有助于更好的结果。
1引言
通过结合视觉和语言理解,这两种中最重要的输入模态,视觉问答
(VQA)自正式提出以来,在研究界引起了广泛[7]。在VQA设置下,模型
应能够回答关于图像的自然语言查询。与对象识别不同,自由形式的查询要求模
型具备超出分类离散的自然语言理解能力。与基于文本的问答不同,VQA进
一步要求模型找到文本描述和图像之间的语义联系,从而使得学习任务更加复
杂。
在这个项目中,我们对了解对VQA模型来说什么是重要的非常感。除了尝试在数据集上训
练一个性能良好的模型之外,我们还希望理解模型是从哪里获取信息来预测的,以及这些
信息如何
StackedAttentionforVisualQuestionAnswering
BingbinLiu
DepartmentofComputerScience
StanfordUniversity
bingbin@stanford.edu
WeiniYu
DepartmentofComputerScience
StanfordUniversity
weiniyu@stanford.edu
OurprojectexploresVisualQuestionAnsweringonmultiple-choicequestionsgivenan
image.Basedonrecentworksusingdifferentmechanisms,wefirstbuildaBag-of-Words
modelwithMLP[1,2]usingGloVewordembeddings[3]andResNetimagefeatures[4],
whichoutperformstheoriginalLSTMwithattentionmodel[5].Wefurtherextenditby
recingourlanguagemodelwithLSTMandaddstackedspatialattentionlayers
following[6]tocapturetheinteractionweenthewordsandimageregions.We
investiedifferentaspectsoftheVQAtaskontheVisual7Wdataset[5]by
experimentingwithmanydifferentsettingsandobtaininterestingresults.Finally,we
presentanalysisonwhichoptionscontributetoterresults.
1Introduction
Bycombiningvisualandlanguageunderstanding,twoofthemostimportantinput
modalitiesinartificialintelligence,visualquestionanswering(VQA)hassparkedwide
interestsinresearchcommunitysincethetermw
您可能关注的文档
- 12月住院医师规范化培训《重症医学》模拟习题及答案(附解析).docx
- 2025年8月住院医师规范化培训《神经外科》试题库及参考答案.docx
- 住院医师规范化培训《核医学科》习题.docx
- 4月住院医师规范化培训《耳鼻咽喉科》模拟练习题(含参考答案).docx
- 2025年11月住院医师规范化培训《口腔全科》练习题含参考答案.docx
- 2024年住院医师规范化培训《中医全科》考试题与参考答案.docx
- 住院医师规范化培训《口腔颌面外科》练习题及答案.docx
- 住院医师规范化培训《口腔科》模拟练习题及答案.docx
- 12月住院医师规范化培训《放射科》模拟练习题+答案.docx
- 1月住院医师规范化培训《骨科》考试模拟题(附答案解析).docx
- 住院医师规范化培训《康复医学》习题(含参考答案)解析.docx
- 2025年5月住院医师规范化培训《耳鼻咽喉科》复习题(含参考答案).docx
- 2025年9月住院医师规范化培训《骨科》试题库(含答案).docx
- 2025年住院医师规范化培训《口腔修复科》模拟考试题+答案.docx
- 8月住院医师规范化培训《外科》测试题(附答案解析).docx
- 2025年6月住院医师规范化培训《预防医学科》练习题(附参考答案).docx
- 2025年7月住院医师规范化培训《放射科》习题(含参考答案).docx
- 2024年住院医师规范化培训《医学影像科》模拟试题(含答案).docx
- 住院医师规范化培训《神经外科》模考试题与参考答案.docx
- 3月住院医师规范化培训《康复医学》测试题+参考答案解析.docx
最近下载
- 柱状图商务总结计划报告统计图表PPT模板.pptx VIP
- 大学英语四级考试高频词汇1500(打印版).docx VIP
- 制作一个小杆秤.pdf VIP
- 2026年中考语文总复习:古诗文默写 第一部分 直接型默写.pdf VIP
- (沪教版2025新教材)七年级英语下册全册词汇总结_可搜索.pdf VIP
- ZP4057旋转式压片机标准清洁操作规程.doc VIP
- 2025至2030年杭州市房地产市场发展现状调研及投资趋势前景分析报告.docx
- 2021-2025年重庆市中考语文试卷高频考点分析及 2026 年备考建议 素材.docx VIP
- PHC管桩水平裂缝成因分析及处置.pdf VIP
- 火力发电厂热力设备和管道保温油漆设计技术规定.docx VIP
原创力文档

文档评论(0)