- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大语言模型在计算机视觉领
域的应用
演讲人:冯佳时
目录
01背景介绍
01背景介绍
02基于LLM的图像理解
03
03基于LLM的视频生成
04总结展望
背景介绍
a计算机视觉的基本问题
物体识别物体检测物体分割
物体识别
物体检测
猫
草地,猫,树,天空
a计算机视觉的基本问题
图像生成3D生成视频生成
图像生成
3D生成
大脑乘着火箭飞向月球黏土做的火车引擎大象戴着生日帽海底漫步
大脑乘着火箭飞向月球
黏土做的火车引擎
图像和视频来自GoogleImagen
LLM统一模型
输入文本
大语言模型
(例如ChatGPT)
问答生成翻译
问答
生成
翻译
a视觉基础模型–生成与理解的统一
“在草地上奔跑的小猫”图像理解基础模型
“在草地上奔跑的小猫”
图像理解基础模型图像生成
是否可基于
LLM搭一个生成理解统一的视觉基础模型?
“在草地上奔跑的小猫”
基于LLM的图像理解
aLLM在图像理解中的应用
映射层:将图像的特征对齐到大语言模型的特征
图像编码器:抽取图像的特征
“左边是一只羊驼,右边是一只美洲驼”
LLM
LLM图像理解与文字描述生成
映射层
映射层
图像编码器
a一些问题
缺少细节理解?只是对图像内容全局的描
缺少细节理解
?只是对图像内容全局的描述。
?缺少图像内容像素级别的理解,例如分割、检测等。
?限制了模型与实际物理环境交互的能力。
“左边是一只羊驼,
右边是一只红色的美洲驼”
幻觉
?语言模型缺少对图像内容的参考,容易虚构不存在的内容。
?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。
a带定位能力的LLM
图片来源:Wangetal.GRUtopia:DreamGeneralRobotsinaCityatScale
a相关工作
拓展LLM的输出:文字描述
拓展LLM的输出:文字描述--文字+相关物体图像中的定位
?提供更明确的答案
?和真实世界建立对应
LLM
LLM
相关物体的分割结果
图片来源:LISA:ReasoningSegmentationviaLargeLanguageModel
a我们的方案:PixelLM
高效性?使用SAM增加了模型的计
高效性
?使用SAM增加了模型的计算成本。
?将分割模型SAM替换成轻量的MLP,提高响应速度。
多物体
?之前的工作只能检测分割出单个物体。
?引入多个token,模型能够完成多个物体的分割。
现有模型的局限
?需要借助一个大规模的分割模型(例如meta的
SAM),严重拖慢响应速度。
?只能定位和分割一个物体,无法应用于需要输出多个物体的场景。
aPixelLM的模型架构
大语言模型
大语言模型
2
2
图像
图像编码器
轻量级的物体分割
代表多个物体的分割码本
代表多个物体的分割码本
1
aPixelLM模型细节–图像特征提取
?目标物体可能有不同的尺寸大小(如右图所示)
?利用OpenAI的CLIP模型作为图像编码器,并且提取多个尺度的图像特征,方便识别分割不同尺寸的物体。
只定位分割出一个尺寸的物体
OpenAICLIP:LearningTransferableVisualModelsFromNaturalLanguageSupervision
aPixelLM模型细节–分割词表的设计
第一组分割
第一组
分割tokens
第二组
分割tokens
?分割词表包含多个token组,每一个对应图像的一个尺度的CLIP特征。
?每个token组包含多个tokens,一起捕捉目标物体的语意特征。
?将多个token组的解码结果融合,可以得到多个物体的分割结果。
uuPixelLM模型
?
?高效的分割解码器
?包含多个注意力模块,每个对应一个特征尺度
?前一个生成的分割结果,会指导后面分割的生成
模型预测的分割tokens多尺度的
模型预测的分割tokens
多尺度的图像特征
aPixelLM训练方法
输出文本的损失函数
不带L_ref的PixelLMvs.完整PIxelLM
训练的损失函数:?帮助模型分辨和学习分割不同的
您可能关注的文档
- 【阿里妈妈,阳狮集团】全域价值探索白皮书.docx
- 【光大证券】铜行业系列报告之三:AI加速数据中心建设,数据中心用铜量增长可观.docx
- 【解数咨询x飞瓜数据】从王小卤_渣sir全域拆解看零食饮料细分机会.docx
- 【亿邦动力】2021跨境电商金融服务报告.docx
- 【亿邦智库】2023跨境支付安全科技与生态发展报告.docx
- 【长城证券】跨境电商专题:政策支持中国跨境出口电商发展,供需两侧恢复促进行业上行.docx
- 【智研咨询】数据中心行业监测周刊:AI产业快速发展的背景下,数据中心迎来投资热潮.docx
- Al周观察:CPO产业趋势加快,AI推动硬件变化.docx
- 服务即营销,创造新增长——全域营销服务一体化解决方案.docx
- 智研咨询-数字经济行业周刊2024年第19期-数字经济获政府部门高度重视,发展环境不断改善-17页.docx
文档评论(0)