大语言模型在计算机视觉领域的应用-字节跳动+冯佳时.docx

下载文档

0
0
约4.09千字
约 74页
2025-01-14 发布于山西
举报
版权申诉
保障服务

大语言模型在计算机视觉领域的应用-字节跳动+冯佳时.docx

1、本文档共74页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大语言模型在计算机视觉领

域的应用

演讲人：冯佳时

01背景介绍

02基于LLM的图像理解

03基于LLM的视频生成

04总结展望

背景介绍

a计算机视觉的基本问题

物体识别物体检测物体分割

物体识别

物体检测

猫

草地,猫,树,天空

a计算机视觉的基本问题

图像生成3D生成视频生成

图像生成

3D生成

大脑乘着火箭飞向月球黏土做的火车引擎大象戴着生日帽海底漫步

大脑乘着火箭飞向月球

黏土做的火车引擎

图像和视频来自GoogleImagen

LLM统一模型

输入文本

大语言模型

(例如ChatGPT)

问答生成翻译

问答

生成

翻译

a视觉基础模型–生成与理解的统一

“在草地上奔跑的小猫”图像理解基础模型

“在草地上奔跑的小猫”

图像理解基础模型图像生成

是否可基于

LLM搭一个生成理解统一的视觉基础模型？

“在草地上奔跑的小猫”

基于LLM的图像理解

aLLM在图像理解中的应用

映射层：将图像的特征对齐到大语言模型的特征

图像编码器：抽取图像的特征

“左边是一只羊驼，右边是一只美洲驼”

LLM

LLM图像理解与文字描述生成

映射层

图像编码器

a一些问题

缺少细节理解?只是对图像内容全局的描

缺少细节理解

?只是对图像内容全局的描述。

?缺少图像内容像素级别的理解，例如分割、检测等。

?限制了模型与实际物理环境交互的能力。

“左边是一只羊驼，

右边是一只红色的美洲驼”

幻觉

?语言模型缺少对图像内容的参考，容易虚构不存在的内容。

?从语言模型的训练语料中，构造出常见的内容，例如“红色的”。

a带定位能力的LLM

图片来源：Wangetal.GRUtopia:DreamGeneralRobotsinaCityatScale

a相关工作

拓展LLM的输出：文字描述

拓展LLM的输出：文字描述--文字+相关物体图像中的定位

?提供更明确的答案

?和真实世界建立对应

LLM

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1394人已咨询）服务中

1亿VIP精品文档

更多 >

大语言模型在计算机视觉领域的应用-字节跳动+冯佳时.docx