网站大量收购独家精品文档,联系QQ:2885784924

多模态是什么意思.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多模态是什么意思 多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。 顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。 目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。 这就涉及到图像和文本领域的内容。 多模态的任务和数据集有哪些? 多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。 例如给定一张图片,可以完成以下任务: 一、VQA(Visual Question Answering)视觉问答 输入:一张图片、一个自然语言描述的问题 输出:答案(单词或短语) 二、Image Caption 图像字幕 输入:一张图片 输出:图片的自然语言描述(一个句子) 三、Referring Expression Comprehension 指代表达 输入:一张图片、一个自然语言描述的句子 输出:判断句子描述的内容(正确或错误) 四、Visual Dialogue 视觉对话 输入:一张图片 输出:两个角色进行多次交互、对话 五、VCR (Visual Commonsense Reasoning) 视觉常识推理 输入:1个问题,4个备选答案,4个理由 输出:正确答案,和理由 六、NLVR(Natural Language for Visual Reasoning)自然语言视觉推理 输入:2张图片,一个分布 输出:true或false 七、Visual Entailment 视觉蕴含 输入:图像、文本 输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾 八、Image-Text Retrieval 图文检索 有3种方式。 1)以图搜文。输入图片,输出文本 2)以文搜图。输入文本,输出图片 3)以图搜图,输入图片,输出图片 多种模态融合的方式有哪些? 通过NLP的预训练模型,可以得到文本的嵌入表示; 再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示; 那么,如何将两者融合起来,来完成以上的各种任务呢? 常用的多模态交叉的方式有两种。 【1】点乘或者直接追加。 此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。 好处是简单方便,计算成本也比较低。 【2】另外一种模态交叉的方式是最近用得比较多的Transformer。 其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。 缺点是占用空间大,计算成本较高。

文档评论(0)

个人文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档