多态大模型平台的应用研发与思考.pdf

下载文档

0
0
约6.3千字
约 11页
2025-04-17 发布于山东
举报
版权申诉
保障服务

多态大模型平台的应用研发与思考.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多态大模型平台的应用研发与思考

导读本⽂将分享九章云极DataCanvas在多模态⼤模型平台⽅⾯的⼀些思考和实践。

本次介绍会围绕下⾯的内容展开：

1.多模态⼤模型的历史发展

2.九章云极DataCanvas的多模态⼤模型平台

3.九章云极DataCanvas多模态⼤模型的实践

4.对未来的思考与展望

分享嘉宾｜缪旭北京九章云极科技有限公司⾸席AI科学家

内容校对｜李瑶

多模态⼤模型的历史发展

牛博带你学AI搜集整理

上图这张照⽚是1956年在美国达特茅斯学院召开的第⼀届⼈⼯智能workshop，这次会议也被认为拉开

了⼈⼯智能的序幕，与会者主要是符号逻辑学届的前驱（除了前排中间的神经⽣物学家Peter

Milner）。

然⽽这套符号逻辑学理论在随后的很⻓⼀段时间内都⽆法实现，甚⾄到80年代90年代还迎来了第⼀

次AI寒冬期。直到最近⼤语⾔模型的落地，我们才发现真正承载这个逻辑思维的是神经⽹络，神经⽣

物学家PeterMilner的⼯作激发了后来⼈⼯神经⽹络的发展，也正因为此他被邀请参加了这个学术研

讨会。

2012年，Tesla⾃动驾驶主管Andrew在博客上发布了上⾯这张图，显示当时美国总统奥巴⻢和⾃⼰的

下属开玩笑。要让⼈⼯智能去理解这张图，不仅是⼀个视觉感知任务，因为除了要识别物体，还需要

理解他们之间的关系；只有知道体重秤的物理原理，才能知道图⾥描述的故事：奥巴⻢踩了秤，导致

秤上的⼈体重升⾼，他因此做出了这个奇怪的表情，同时其他⼈在⼀旁笑。这样的逻辑思维显然已经

超出了纯粹的视觉感知范畴，因此必须将视觉认知和逻辑思维结合到⼀起，才能摆脱“⼈⼯智障”的尴

尬，⽽多模态⼤模型的重要性和困难性也体现在这⾥。

上图是⼈类⼤脑的解剖结构图，图中的语⾔逻辑区对应的就是⼤语⾔模型，⽽其他的区域则分别对应

着不同的感官，包括视觉、听觉、触觉、运动、记忆等等。虽然⼈⼯神经⽹络并不是真正意义上的脑

神经⽹络，但还是可以从中受到⼀些启发，即构造⼤模型的时候，可以将不同的功能联合在⼀起，这

也是多模态模型构建的基本思想。

多模态⼤模型可以做什么？

牛博带你学AI搜集整理

多模态⼤模型可以为我们做很多事情，例如视频理解，⼤模型可以帮我们总结视频的摘要以及关键信

息，从⽽节约我们看视频的时间；⼤模型还可以帮助我们进⾏视频的后期分析，例如节⽬分类、节⽬

收视率统计等；此外，⽂⽣图也是多模态⼤模型的⼀个重要的应⽤领域。

⽽⼤模型如果和⼈的运动，或者机器⼈的运动联合在⼀起，就会产⽣⼀个具身智能体，就像⼈⼀样，

基于过往经验规划最佳路径的⽅法，并应⽤到全新的场景中，解决⼀些先前没有遇⻅过的问题，同时

规避⻛险；甚⾄可以在执⾏过程中修改原有计划，直到最后获得成功。这也是⼀个具有⼴泛前景的应

⽤场景。

多模态⼤模型

上图是多模态⼤模型在发展过程中的⼀些重要节点：

2020年的ViT模型（VisionTransformer）是⼤模型的开端，⾸次将Transformer架

构⽤到除语⾔和逻辑处理外的其它类型数据（视觉数据），并且显示了好的泛化

能⼒；

随后通过OpenAI开源的CLIP模型，再次证明了通过ViT和⼤语⾔模型的使⽤，视觉

任务实现了很强的⻓尾泛化能⼒，即通过常识推测先前没有⻅过的类别

到了2023年，各式各样的多模态⼤模型逐渐显现，从PaLM-E（机器⼈），到

whisper（语⾳识别），再到ImageBind（图像对⻬），再到Sam（语义分割），最

后到地理图像；还包括微软的统⼀多模态架构Kosmos，多模态⼤模型发展迅速。

牛博带你学AI搜集整理

特斯拉在6⽉的CVPR还提出了通⽤世界模型这样的愿景。

从上图可以看出，短短半年时间，⼤模型就发⽣了⾮常多的变化，其迭代速度是⾮常快的。

3.模态对⻬架构

上图是多模态⼤模型的通⽤架构图，包含⼀个语⾔模型、⼀个视觉模型，通过固定语⾔模型和固定视

觉模型进⽽学习对⻬模型；⽽对⻬就是将视觉模型的⽮量空间和语⾔模型的⽮量空

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

多态大模型平台的应用研发与思考.pdf