图文预训练：Florence，一种新的计算机视觉基础模型.pdfVIP

下载本文档

2
0
约1.61万字
约 7页
2023-06-13 发布于上海
举报
版权申诉

图文预训练：Florence，一种新的计算机视觉基础模型.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图⽂预训练：Florence，⼀种新的计算机视觉基础模型来⾃微软的Florence Florence:⼀种新的计算机视觉基础模型 Lu Yuan, Dongdong Chen, Yi-Ling Chen, Noel Codella, Xiyang Dai, Jianfeng Gao, Houdong Hu, Xuedong Huang, Boxin Li, Chunyuan Li, Ce Liu, Mengchen Liu , Zicheng Liu, Yumao Lu, Yu Shi, Lijuan Wang, Jianfeng Wang, Bin Xiao , Zhen Xiao , Jianwei Yang, Michael Zeng, Luowei Zhou, Pengchuan Zhang 提交于2021.11 对我们多样⽽开放的世界的⾃动化视觉理解要求计算机视觉模型能够很好地进⾏泛化，并对特定任务进⾏最⼩程度的定制，类似于⼈类视觉。计算机视觉基础模型，它被训练在不同的，⼤规模的数据集，并可以适应⼴泛的下游任务，是⾄关重要的任务，以解决现实世界的计算机视觉应⽤。虽然现有的视觉基础模型，如CLIP（Radford等⼈，2021），对齐（JAI等⼈，2021），和Wu Dao 2（WUD）主要集中在映射图像和⽂本表⽰到⼀个跨模态的共享表⽰，我们引⼊了⼀个新的计算机视觉基础模型，佛罗伦萨，将表⽰从粗略（场景）扩展到精细（对象），从静态（图像）扩展到动态（视频），从RGB扩展到多种模式（标题、深度）。通过结合Web级图像⽂本数据的通⽤视觉语⾔表⽰，我们的Florence模型可以轻松地适应各种计算机视觉任务，例如分类、检索、⽬标检测、VQA、图像标题、视频检索和动作识别。此外，Florence在许多类型的迁移学习中表现出⾊：全样本微调、线性探测、少样本迁移和零样本迁移，⽤于新图像和对象。所有这些特性对于我们的视觉基础模型来说是⾄关重要的，以服务于⼀般视觉任务。Florence在44个具有代表性的基准测试中取得了最新的最新成果，例如ImageNet-1K零样本分类，top1精度为 83.74，top5精度为97.18，COCO微调的mAP为62.4，VQA的mAP为80.36，Kinetics-600的mAP为87.8。 1.导⾔类⼈⼈⼯智能不是通过设计特定的模型来解决特定的问题，⽽是通过整体的、联合的模型来实现的，这些模型可以在不需要太多⼈参与的情况下同时解决各种现实世界的问题。因此，⼈们希望有新的⼈⼯智能体系结构来学习联合的、基本的表⽰，以⽀持范围⼴泛的下游⼈⼯智能任务，⽽附加的领域知识有限，类似于⼈类会做的事情。其中⼀个提议是XYZcode（Huang），它将单语⽂本（X）、⾳频和视觉感官信号（Y）以及多语⾔（Z）有机地结合在⼀起，以创建能够说、听、看和理解的⼈⼯智能模型。另⼀种⽅法是Pathways（Dean），这是⼀种单⼀的模型，可以推⼴到数百万个任务。向这个⽅向迈进的⼀个具体步骤是基础模型的发展。基础模型的术语⾸先被引⼊（BurMasaI等⼈，2021）中，指的是任何模型，可以从规模的⼴泛数据训练，该模型能够适应⼴泛的下游任务（例如微调）。基础模型由于其令⼈印象深刻的性能和泛化能⼒⽽变得有前景。它们被许多研究⼈员和开发者迅速集成并部署到现实世界的⼈⼯智能系统中。虽然基础模型已经在NLP中显⽰了巨⼤的影响，例如BERT（德夫林等⼈，2019），GPT3（Brown等⼈，2020），在计算机视觉中，对标记数据集如ImageNet（邓等⼈，2009）预训练模型仍然是标准实践。最近，⼤规模的预训练⽅法，如CLIP（Radford等⼈，2021年）、 ALIGN（Jia等⼈，2021年）和Wudao 2.0（Wud），直接从⽹络规模的图像-⽂本对学习，在有效的迁移学习和零样本能⼒⽅⾯取得了⾮常令⼈⿎舞的进展。然⽽，此类模型仅限于图像到⽂本的映射任务，如分类、检索和标记。我们提出的问题是： “计算机视觉的基础模型是什么？”⾸先，为了更好地定义计算机视觉中的 “基础”，我们⽤三个正交轴捕获问题空间中的任务频谱（图1）：1）空间：从粗略（例如场景级别分类）到细粒度（例如物体检测），2）时间：从静态（例如图像）到动态（例如视频），3）模态：从仅RGB到多感官（例如标题和深度）。由于视觉理解的多样性，我们将计算机视觉的基础模型重新定义为⼀个预训练的模型及其适配器，⽤于解决在这个时间-空间-模态空间中的所有视觉任务，具有可迁移性，例如零/少样本学习和完全微调，⽤于迁移任务的适配仅限于