- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
125|计算机视觉高级话题(二):视觉问答
2018-09-17洪亮劼来自北京
《AI技术内参》
今天,我们继续分享计算机视觉领域的高级话题,聊一聊“视觉问答”(VisualQuestion
Answering)这个话题。
我们在前面曾经提到过“问答系统”(QuestionAnswering),可以说这是人工智能领域最
核心的问题之一。传统的问答系统主要是针对文字而言的,问题和答案都是以文字的形式表达
的。当然,问答所针对的内容,有可能来自一个外在的知识库,例如维基百科。
我们今天要讨论的视觉问答,特别是“自由形式”(Free-Form)或者“开放形式”(Open
Ended)的视觉问答,主要指的是根据一个图片进行自由的基于自然语言的问答。例如,我们
可以问一个图片中是否存在一只猫;或者可以问图片里的天气是不是阴天等等。
视觉问答的挑战
那么,为什么视觉问答会在最近几年里得到很多学者的关注呢?我们有必要先来分析一下视觉
问答所面临的挑战。
首先,视觉问答需要对图片中的细节加以理解。例如,我们问图片中的匹萨用了哪种奶酪,那
就代表着我们的系统必须能够识别匹萨中的奶酪,而这往往意味着非常微观的一些细节的物体
的识别。
其次,视觉问答还需要我们对图片的上下文进行理解。例如,我们可以问图片中有几辆自行
车。这个问题其实不仅需要我们对图片中的自行车进行理解,还需要能够计数,这显然是一种
更加复杂的理解任务。
除此以外,我们还需要对图片中的物体进行推理。例如,我们问图片中的匹萨是不是素食匹
萨。那这个问题就需要对匹萨的种类进行分类,这是一个最基本的推理。
当然,视觉问答的挑战还远远不止这些。但从这些例子我们已经可以看出,视觉问题是一个综
合性的人工智能问题。
不少视觉问答的数据集除了纯粹的图片作为输入以外,还有一个图片的“标题”
(Caption)。这个图片标题往往提供了不少的信息,也算是帮助研究者在一定程度上降低了
任务的难度。
如果需要对视觉问答的总体情况有一个更加深入的理解,推荐你阅读我在文末列出的参考文献
[1]。
视觉问答建模
接下来我们来聊一个视觉问答的基础模型[1]。这个模型需要对问题、图片以及图片标题分别
进行建模,从而能够进行问答。
针对问题,模型利用所有问题中的重要词进行了“词包”(BagofWords)的表达,并且得
到了一个1030维度的输入表征。类似地,针对图片标题,模型也进行了词包表达,得到了一
个1000维度最高频词的表征。最后,作者们利用了VGG网络来提取图片的特征,得到了一
个4096维度的图像表征。一种更加简单的方法则是先利用神经网络的隐含层,针对每一种特
征单独训练,然后把第一层中间层给串联起来。串联起来之后,这就是所有特征的一种联合的
表达了。那么我们可以再经过一层隐含层学习到各个表征之间的相互关系。
文章中还讨论了另外一种模型,那就是利用LSTM来把问题和图像结合到一起,来最后对回
答进行预测。
在这样的模型架构下,回答的准确度大概在55%左右。如何来理解这个准确度呢?在同样的
一个数据集中,如果针对所有的问题回答都是“是”(Yes)所达到的准确度大概是20%
多。
在最初的模型被开发出来以后的几年时间里,针对视觉问答的各类模型如雨后春笋般爆发式地
增长。其中一个大类的模型利用了“关注”(Attention)机制。在深度模型中,关注机制是
一种相对来说复杂一些的“加权”模式。也就是说,我们希望对某一些神经元或者是隐含变量
更加关注一些。这个机制在视觉问答中的一种应用就是,针对不同的问题,我们希望让模型学
习到图片的哪一部分来负责回答。
在一篇论文中[2],作者们提出了一种更加高级的“关注”机制,那就是“层次同关注”
(HierarchicalCo-Attention)。
这个机制是什么样的呢?针对某一个回答,我们不仅要学习到究竟需要模型“看到”图片的某
一个局部,这也就是我们刚才说到的“加权”,还需要针对问题,也就是文字,进行“加
权”。这里的一个观察是,有时候一个问题中的核心其实就是几个关键词,这些关键词直接影
响了回答。这就是“同关注”这一概念。
文章中还提出了另外一个概念,那就是“层次关注”,是指问题的文字,在单词、短语以及整
个提问三个层次来进行建模。可以说,这种方法在语义的局部以及整体上更能找到问题的核心
所在。
最后,需要提及一点,最近的一些研究又把视觉问答和“推理”(Reasoning),特别是“神
经编程”(NeuralProgramming)联系起来,让回答问题变成自动生成程序的某种特殊形式
[3]。
您可能关注的文档
- 055-基于深度学习的搜索算法:深度结构化语义模型【萌萌家】.pdf
- 057-基于深度学习的搜索算法:局部和分布表征下的搜索模型【萌萌家】.pdf
- 058-简单推荐模型之一:基于流行度的推荐模型【萌萌家】.pdf
- 061-基于隐变量的模型之一:矩阵分解【萌萌家】.pdf
- 062-基于隐变量的模型之二:基于回归的矩阵分解【萌萌家】.pdf
- 066-高级推荐模型之三:优化复杂目标函数【萌萌家】.pdf
- 067-推荐的Exploit和Explore算法之一:EE算法综述【萌萌家】.pdf
- 068-推荐的Exploit和Explore算法之二:UCB算法【萌萌家】.pdf
- 070-推荐系统评测之一:传统线下评测【萌萌家】.pdf
- 071-推荐系统评测之二:线上评测【萌萌家】.pdf
最近下载
- 前列腺癌TNM分期(AJCC第8版).doc VIP
- 2023年甘肃省兰州市中考语文试卷(含答案解析).docx
- 高中生物选择性必修2(综合检测卷)(附答案)—2022-2023学年高二下学期生物选择性必修2.pdf VIP
- 高中生物选择性必修二综合复习练习卷含答案 .pdf VIP
- 企业培训行业在线学习平台搭建与管理方案.doc VIP
- 2023年四川省成都市中考数学试卷真题(含答案).pdf
- 高中生物选择性必修2(综合测试)(附答案)—2022-2023学年高二下学期生物完整版7209607.pdf VIP
- 高中生物选择性必修2(综合检测)(附答案)—2022-2023学年高二下学期生物选择性必修2.docx VIP
- 护理质量管理制.pptx VIP
- 林下经济可行性研究报告.docx
文档评论(0)