多模态是什么意思.docx

下载文档

221
0
约1.07千字
约 4页
2022-12-10 发布于广东
举报
版权申诉
保障服务

多模态是什么意思.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多模态是什么意思多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。顾名思义，多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。这就涉及到图像和文本领域的内容。多模态的任务和数据集有哪些？多模态研究的是视觉语言问题，其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。例如给定一张图片，可以完成以下任务：一、VQA（Visual Question Answering）视觉问答输入：一张图片、一个自然语言描述的问题输出：答案（单词或短语）二、Image Caption 图像字幕输入：一张图片输出：图片的自然语言描述（一个句子）三、Referring Expression Comprehension 指代表达输入：一张图片、一个自然语言描述的句子输出：判断句子描述的内容（正确或错误）四、Visual Dialogue 视觉对话输入：一张图片输出：两个角色进行多次交互、对话五、VCR (Visual Commonsense Reasoning) 视觉常识推理输入：1个问题，4个备选答案，4个理由输出：正确答案，和理由六、NLVR(Natural Language for Visual Reasoning)自然语言视觉推理输入：2张图片，一个分布输出：true或false 七、Visual Entailment 视觉蕴含输入：图像、文本输出：3种label的概率。（entailment、neutral、contradiction）蕴含、中性、矛盾八、Image-Text Retrieval 图文检索有3种方式。 1）以图搜文。输入图片，输出文本 2）以文搜图。输入文本，输出图片 3）以图搜图，输入图片，输出图片多种模态融合的方式有哪些？通过NLP的预训练模型，可以得到文本的嵌入表示；再结合图像和视觉领域的预训练模型，可以得到图像的嵌入表示；那么，如何将两者融合起来，来完成以上的各种任务呢？常用的多模态交叉的方式有两种。【1】点乘或者直接追加。此种方式将文本和图像分别进行Embedding，之后将各自的向量进行追加或者点乘。好处是简单方便，计算成本也比较低。【2】另外一种模态交叉的方式是最近用得比较多的Transformer。其好处是利用了Transformer架构，能够更好地进行图像特征和文本特征的表示。缺点是占用空间大，计算成本较高。