基于多层级语义信息融合与推理的视觉对话算法.pdf

下载文档

17
0
约7.12万字
约 47页
2024-01-09 发布于江苏
举报
版权申诉
保障服务

基于多层级语义信息融合与推理的视觉对话算法.pdf

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

随着计算机视觉领域和自然语言领域的快速更新迭代，近年来跨模态的视觉

对话任务已经成为一种新兴的技术，视觉对话将图像的识别、关系的推理以及自

然语言的理解三个特性完美结合，是近年来热门且具挑战性的跨模态视觉语言任

务，在回答当前问题时，视觉对话任务需要匹配不同的模态特征，因此，需要针

对不同的模态特征，以及当前的问题，运用多种方法，以及多种技术手段，来搜

寻有用的信息，以满足复杂的交互需求。要实现这一目标，模型需要能够从视觉

线索（图像信息）和文本知识（对话历史信息）中提取有价值的信息，于是，如

何充分有效的融合任务所涉及的多模态信息成为当前主流研究方向。

大多数视觉对话的模型通常利用图像特征与文本的单词特征进行相关性推

理，但忽略了图像和文本段落之间的联系。也就是说，这些模型很少考虑到图像

和文本在更高层次上的语义关系，因此在一些任务中表现可能受到限制。在另一

方面，由于视觉对话任务的特殊性，同时拥有图像、问题和对话历史三个特征，

而注意力机制的输入一般是两个，因此需要适合当前任务的特征融合模块，针对

主流模型在语义信息融合粒度方面存在的局限性，提出了基于多输入Transformer

与多层次信息融合的视觉对话算法。模型包含了词级别多步推理模块、问题引导

的对话历史段落搜索模块以及多层级信息融合解码模块，较为全面地考虑了局部

细粒度语义细节和全局上下文语义话题信息。其中，多输入Transformer模块的

设计能够较好地实现语义粒度一致的多种信息的并行编码和多步推理过程。

然后本文基于上述多输入Transformer模型进一步研究，为了提高模型中衡

量排序质量的指标，采用了大规模数据预训练模型进行进一步修改，采用了动态

词嵌入，并且通过大量数据集的预先训练，然后在下游任务视觉对话任务中进行

微调，使之拟合效果词嵌入本模型在相比于多输入Transformer模型上效果取得

进一步提高。并且从另一个角度构建了新的文本段落关系，针对视觉对话任务的

三个特征进行了改进，融合问题与历史信息成为一个新的特征信息，并以此来与

视觉特征进行融合，基于BERT模型的多层语义粒度视觉对话算法相较于传统模

型拥有一定的优越性。

为了评估本文所提出模型的有效性，本文将其与主流先进算法在两个公开数

据集上进行了比较，分别是视觉对话公开数据集VisDialv0.9和VisDialv1.0。结

果表明，本文所提出的模型取得了新的、较为优越的性能。

关键词：深度学习；视觉对话；跨模态融合；Transformer；段落级别；BERT

Abstract

Withtherapidupdatesanditerationsinthefieldsofcomputervisionandnatural

language,cross-modalvisualdialoguetaskshavebecomeanemergingtechnologyin

recentyears,whichcombinesthreefeaturesofimagerecognition,relationalreasoning

andnaturallanguageunderstanding,andisapopularandchallengingcross-modal

visuallanguagetaskinrecentyears.Therefore,avarietyofmethodsandtechniques

areneededtosearchforusefulinformationtomeetthecomplexinteraction

requirementsfordifferentmodalfeaturesandtheproblemathand.Toachievethis

goal,modelsneedtobeabletoextractvaluableinformationfromvisualcues(image

information)andtextualknowledge(dialoguehistoryinformation),an

您可能关注的文档

文档评论（0）

136****6583 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：7043055023000005

1亿VIP精品文档

更多 >

基于多层级语义信息融合与推理的视觉对话算法.pdf