网站大量收购闲置独家精品文档,联系QQ:2885784924

大语言模型在计算机视觉领域的应用-字节跳动+冯佳时.docx

大语言模型在计算机视觉领域的应用-字节跳动+冯佳时.docx

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大语言模型在计算机视觉领

域的应用

演讲人:冯佳时

目录

01背景介绍

01背景介绍

02基于LLM的图像理解

03

03基于LLM的视频生成

04总结展望

背景介绍

a计算机视觉的基本问题

物体识别物体检测物体分割

物体识别

物体检测

草地,猫,树,天空

a计算机视觉的基本问题

图像生成3D生成视频生成

图像生成

3D生成

大脑乘着火箭飞向月球黏土做的火车引擎大象戴着生日帽海底漫步

大脑乘着火箭飞向月球

黏土做的火车引擎

图像和视频来自GoogleImagen

LLM统一模型

输入文本

大语言模型

(例如ChatGPT)

问答生成翻译

问答

生成

翻译

a视觉基础模型–生成与理解的统一

“在草地上奔跑的小猫”图像理解基础模型

“在草地上奔跑的小猫”

图像理解基础模型图像生成

是否可基于

LLM搭一个生成理解统一的视觉基础模型?

“在草地上奔跑的小猫”

基于LLM的图像理解

aLLM在图像理解中的应用

映射层:将图像的特征对齐到大语言模型的特征

图像编码器:抽取图像的特征

“左边是一只羊驼,右边是一只美洲驼”

LLM

LLM图像理解与文字描述生成

映射层

映射层

图像编码器

a一些问题

缺少细节理解?只是对图像内容全局的描

缺少细节理解

?只是对图像内容全局的描述。

?缺少图像内容像素级别的理解,例如分割、检测等。

?限制了模型与实际物理环境交互的能力。

“左边是一只羊驼,

右边是一只红色的美洲驼”

幻觉

?语言模型缺少对图像内容的参考,容易虚构不存在的内容。

?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。

a带定位能力的LLM

图片来源:Wangetal.GRUtopia:DreamGeneralRobotsinaCityatScale

a相关工作

拓展LLM的输出:文字描述

拓展LLM的输出:文字描述--文字+相关物体图像中的定位

?提供更明确的答案

?和真实世界建立对应

LLM

LLM

相关物体的分割结果

图片来源:LISA:ReasoningSegmentationviaLargeLanguageModel

a我们的方案:PixelLM

高效性?使用SAM增加了模型的计

高效性

?使用SAM增加了模型的计算成本。

?将分割模型SAM替换成轻量的MLP,提高响应速度。

多物体

?之前的工作只能检测分割出单个物体。

?引入多个token,模型能够完成多个物体的分割。

现有模型的局限

?需要借助一个大规模的分割模型(例如meta的

SAM),严重拖慢响应速度。

?只能定位和分割一个物体,无法应用于需要输出多个物体的场景。

aPixelLM的模型架构

大语言模型

大语言模型

2

2

图像

图像编码器

轻量级的物体分割

代表多个物体的分割码本

代表多个物体的分割码本

1

aPixelLM模型细节–图像特征提取

?目标物体可能有不同的尺寸大小(如右图所示)

?利用OpenAI的CLIP模型作为图像编码器,并且提取多个尺度的图像特征,方便识别分割不同尺寸的物体。

只定位分割出一个尺寸的物体

OpenAICLIP:LearningTransferableVisualModelsFromNaturalLanguageSupervision

aPixelLM模型细节–分割词表的设计

第一组分割

第一组

分割tokens

第二组

分割tokens

?分割词表包含多个token组,每一个对应图像的一个尺度的CLIP特征。

?每个token组包含多个tokens,一起捕捉目标物体的语意特征。

?将多个token组的解码结果融合,可以得到多个物体的分割结果。

uuPixelLM模型

?

?高效的分割解码器

?包含多个注意力模块,每个对应一个特征尺度

?前一个生成的分割结果,会指导后面分割的生成

模型预测的分割tokens多尺度的

模型预测的分割tokens

多尺度的图像特征

aPixelLM训练方法

输出文本的损失函数

不带L_ref的PixelLMvs.完整PIxelLM

训练的损失函数:?帮助模型分辨和学习分割不同的

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档