视觉大模型的探索工作LVM.docxVIP

下载本文档

3
0
约3.98千字
约 11页
2025-04-12 发布于湖南
举报
版权申诉

视觉大模型的探索工作LVM.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1介绍

要构建一个大型视觉模型（LVM）需要什么？视觉能力并不依赖于语言。因此，尽管像LLaVA这样的视觉-语言模型非常有趣且值得追求，但在本文中，希望仅凭像素构建视觉模型。

在LVMs中试图模仿的当代LLMs的关键特征是：

1）在大数据存在下的扩展性

2）通过提示（上下文学习）灵活地指定任务。

三个主要组件：

1）数据：利用视觉数据的多样性。首先，仅仅是原始的未标注图像和视频。以及利用过去几十年产生的各种标注视觉数据源——语义分割、深度重建、关键点、3D物体的多视图等。本文定义了一种通用格式，“视觉句子”，用以表示这些不同的标注，而无需任何超出像素的元知识。最终形成的训练数据集总大小为16.4亿张图像/帧。

2）架构：使用一个大型的Transformer架构（300亿个参数），在表示为序列的视觉数据上训练，使用学习到的分词器将每个图像映射到一个由256个向量量化标记组成的字符串。

3）损失函数：一旦图像/视频/标注图像都可以表示为序列，可以训练模型最小化下一个预测标记的交叉熵损失。

凭借这种简单的设计，展示了一些值得注意的行为：

1）当增加模型大小和数据大小时，表现出适当的扩展行为。

2）可以通过在测试时设计合适的提示来解决许多不同的视觉任务。虽然结果没有显示出与专门训练的模型一样高的性能，但一个单一的视觉模型能够解决多种任务也表现出了该方法的可行性。

3）无监督数据量对各种标准视觉任务性能的促进。

4）本文研究出现了通用视觉推理能力的暗示——处理分布外的数据，并执行新任务。这需要进一步的研究。

2数据

任何大型预训练模型的关键要求是它必须在大量数据上进行训练。对于语言模型来说，获取非常大且多样化的数据集相对容易。在计算机视觉中，还没有像自然语言领域那样的巨大数据集，本文工作的中心贡献之一是朝着策划这样一个数据集迈出第一步，称之为统一视觉数据集v1（UVDv1）。

本文利用了许多不同的视觉数据来源：

（1）未标记的图像；

（2）带有视觉注释的图像；

（3）未标记的视频；

（4）带有视觉注释的视频；

（5）3D合成对象。

其中未标记的图像，占数据的80%以上，捕捉到了较为全面的视觉世界，并提供了所需的多样性，但质量较低。带有注释的图像分布更为受限，但通常质量更高。视频数据甚至更加受限（通常限于以人类为中心的活动），但却是宝贵的时间数据来源。3D合成对象的渲染在多样性上最低，但可以提供关于3D结构行为的宝贵线索。重要的是，UVDv1是一个纯粹的视觉数据集，不包含任何非视觉元数据（例如文本）。UVDv1包含了16.4亿张图像。

与大型语言模型另一个重要的不同之处在于，语言数据在所有数据中具有自然统一的一维结构——文本流。对于视觉数据来说并非如此，不同的来源都具有不同的结构。在本文中，提出将视觉句子作为视觉数据的统一单位，这使能够从多样化的数据集中训练可扩展的模型。视觉句子只是一个包含一个或多个图像后跟一个句子结束（EOS）标记的序列。

上图显示了各种数据源如何被划分为视觉句子。

单张图像

单张图像本身代表了视觉句子的最简单形式——{图像，EOS}。使用LAION5B数据集中的1.49亿过滤后图像的子集。这是本文数据中最大的一部分，占88.5%。

图像序列

一系列图像是视觉句子的自然形式。通过从各种现有数据集中获取视频数据来创建这样的序列。通过在三个不同的步长上随机采样视频来形成16帧的视觉句子。此外还利用Objaverse数据集中的合成3D对象生成各种物体的以对象为中心的多视角序列。对于每个对象，从1.5到2.2之间采样一个对象中心到相机的半径长度，并从-45度到45度之间采样一个恒定的高程，然后通过改变方位角并以15度的步长来遍历对象的不同视图，并渲染24个视图。总共渲染了42000个序列用于训练和8000个用于测试。最后，还可以将属于同一语义类别的图像表示为序列。我们使用ImageNet中的类别，将同一类别中的图像组连接成长度为16的视觉句子。

带注释的图像

为了以统一的方式处理不同类型的图像注释，选择将所有注释表示为图像。一些数据类型，例如语义分割图、边缘图、深度图和法线图像，已经以这种方式表示。对于其他类型，为每种特定的注释类型应用了定制的方法：

1)目标检测：通过在每个对象周围叠加一个颜色编码的边界框来创建注释；

2)人体姿态：人体骨架在像素空间中渲染，遵循OpenPose格式，使用MMPose；

3)风格迁移、去噪、低光增强和立体数据集：这些都被表示为图像对（例如输入/输出）。

4)彩色化：将ImageNet图像转换为灰度，产生图像对。

5)图像修复：该过程涉及在图像中随机添加黑色方块以模拟损坏，产生图像对。

对于上述所有注释类型，可以通过将相同注释类型的8个图像对连接成一个16张图像的视

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

视觉大模型的探索工作LVM.docxVIP