网站大量收购闲置独家精品文档,联系QQ:2885784924

从多模态联合预训练到多模态⼤语⾔模型:架构、训练、评测、趋势概览(2023).docx

从多模态联合预训练到多模态⼤语⾔模型:架构、训练、评测、趋势概览(2023).docx

  1. 1、本文档共190页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

从多模态联合预训练到多模态?语?模型:架构、训练、评测、趋势概览

魏忠钰(Wei,Zhongyu)

复旦大学

数据智能与社会计算实验室(FudanDISC)

自然语言处理组(Fudan-NLP)

2023年12?03?

中国中?信息学会前沿技术讲习班

合作者

李泽君

杜梦?

张霁雯

吴斌浩

王晔

周呈星

罗瑞璞

陈汉夫

?录

ChatGPT之前的视觉语?预训练

?视觉语?模型的架构和训练

?视觉语?模型的评测

?视觉语?模型的能?扩充

?语?模型?撑的具?智能(视觉导航)

任务模块语言视觉跨视觉语?模态的研究场景

任务

模块

语言

视觉

匹配

匹配

?成

?成

推理

推理

导航

导航

跨模态语义表示

跨模态语义表示

跨模态语义对?

跨模态语义对?

短语

短语

句?

句?

段落

段落

像素

像素

区域

区域

图?

图?

相册

相册

图像?本的语义匹配

给定?张图?,从句?集合中检索语义相关的句?。

给定?个句?,从图?集合中检索语义相关的图?。

评测指标:R@1(Recall@1),R@5,R@10

Image-train

Image-dev

Image-test

caption

MSCOCO

113,287

5,000

5,000

5foreachimage

Flickr30K

29,000

1,000

1,000

视觉指代理解(VisualReferringExpression)

给定?个语?表达,确定图?中指代的?标物体。

重叠?例IntersectionoverUnion(IoU):真实和预测的物体框。

如果IoU超过0.5,被认为真,否则为假。

图?数

?标物体数

?本表达

平均?度

RefCOCO

50,000

19,994

142,209

3.61

RefCOCO+

49,856

19,992

141,4564

3.53

RefCOCOg

26,711

54,822

85,474

8.43

基于视觉的?本?成

图?描述?成

相册故事?成

图?对话?成

评测指标:BLUE,ROUGE,MEOTER,SPICE

数据集

图?个数

描述个数

MSCOCO

300,000+

5perimage

Flickr30K

30,000

158,000intotal

Flickr8K

8,000

5perimage

VisualGenome

108,000+

1,445,322intotal

Instagram

~10,000

~

5perimage

FlikrStyle10K

10,000

Romantic,humorous,factual

视觉语?问答(VisualQuestionAnsering)

数据集合

图?个数

问题个数

数据集特点

VQA2.0(2015)

204,721(coco)

1,105,904

10annotatedanswers:yes/no,number,other

CLEVR(2016)

100,000

864,968

Synthetic;Reasonaboutrelationshipsbetweenobjectsofdifferentshapes,colorsandsizes

Visual

Genome(2016)

108,077(coco,flickr)

1,445,322

Regionbasedqa-pairandcaption,scenegraph,objectdetectionwithannotatedattribute

GQA(2019)

113,018(coco,flickr,visualgenome)

22,669,678

Unbalanceddata;scenegraphbased;fullanswer;word-objectmapping

视觉常识推理(VisualCommonsenseReasoning)

任务:给定?张图?、?些?标物体、?个问题、四个答案,(1)让模型选择哪?个描述与图?是?致的,(2)让模型选择输出该答案的解释。

数据集VCR:从110k电影?段中,抽取的290K多选QA.

From

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档