从多模态联合预训练到多模态⼤语⾔模型：架构、训练、评测、趋势概览（2023）.docx

下载文档

0
0
约2.74万字
约 190页
2024-12-27 发布于山西
举报
版权申诉
保障服务

从多模态联合预训练到多模态⼤语⾔模型：架构、训练、评测、趋势概览（2023）.docx

1、本文档共190页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从多模态联合预训练到多模态?语?模型：架构、训练、评测、趋势概览

魏忠钰（Wei,Zhongyu）

复旦大学

数据智能与社会计算实验室(FudanDISC)

自然语言处理组(Fudan-NLP)

2023年12?03?

中国中?信息学会前沿技术讲习班

合作者

李泽君

杜梦?

张霁雯

吴斌浩

王晔

周呈星

罗瑞璞

陈汉夫

?录

ChatGPT之前的视觉语?预训练

?视觉语?模型的架构和训练

?视觉语?模型的评测

?视觉语?模型的能?扩充

?语?模型?撑的具?智能（视觉导航）

任务模块语言视觉跨视觉语?模态的研究场景

任务

模块

语言

视觉

匹配

?成

推理

导航

跨模态语义表示

跨模态语义对?

字

短语

句?

段落

像素

区域

图?

相册

图像?本的语义匹配

给定?张图?，从句?集合中检索语义相关的句?。

给定?个句?，从图?集合中检索语义相关的图?。

评测指标:R@1(Recall@1),R@5,R@10

Image-train

Image-dev

Image-test

caption

MSCOCO

113,287

5,000

5foreachimage

Flickr30K

29,000

1,000

视觉指代理解（VisualReferringExpression）

给定?个语?表达，确定图?中指代的?标物体。

重叠?例IntersectionoverUnion(IoU)：真实和预测的物体框。

如果IoU超过0.5,被认为真，否则为假。

图?数

?标物体数

?本表达

平均?度

RefCOCO

50,000

19,994

142,209

3.61

RefCOCO+

49,856

19,992

141,4564

3.53

RefCOCOg

26,711

54,822

85,474

8.43

基于视觉的?本?成

图?描述?成

相册故事?成

图?对话?成

评测指标:BLUE,ROUGE,MEOTER,SPICE

数据集

图?个数

描述个数

MSCOCO

300,000+

5perimage

Flickr30K

30,000

158,000intotal

Flickr8K

8,000

5perimage

VisualGenome

108,000+

1,445,322intotal

Instagram

~10,000

5perimage

FlikrStyle10K

10,000

Romantic,humorous,factual

视觉语?问答(VisualQuestionAnsering)

数据集合

图?个数

问题个数

数据集特点

VQA2.0(2015)

204,721(coco)

1,105,904

10annotatedanswers:yes/no,number,other

CLEVR(2016)

100,000

864,968

Synthetic;Reasonaboutrelationshipsbetweenobjectsofdifferentshapes,colorsandsizes

Visual

Genome(2016)

108,077(coco,flickr)

1,445,322

Regionbasedqa-pairandcaption,scenegraph,objectdetectionwithannotatedattribute

GQA(2019)

113,018(coco,flickr,visualgenome)

22,669,678

Unbalanceddata;scenegraphbased;fullanswer;word-objectmapping

视觉常识推理（VisualCommonsenseReasoning）

任务：给定?张图?、?些?标物体、?个问题、四个答案，（1）让模型选择哪?个描述与图?是?致的，（2）让模型选择输出该答案的解释。

数据集VCR：从110k电影?段中，抽取的290K多选QA.

From

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1390人已咨询）服务中

1亿VIP精品文档

更多 >

从多模态联合预训练到多模态⼤语⾔模型：架构、训练、评测、趋势概览（2023）.docx