网站大量收购独家精品文档,联系QQ:2885784924

多态大模型平台的应用研发与思考.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

多态大模型平台的应用研发与思考

导读本⽂将分享九章云极DataCanvas在多模态⼤模型平台⽅⾯的⼀些思考和实践。

本次介绍会围绕下⾯的内容展开:

1.多模态⼤模型的历史发展

2.九章云极DataCanvas的多模态⼤模型平台

3.九章云极DataCanvas多模态⼤模型的实践

4.对未来的思考与展望

分享嘉宾|缪旭北京九章云极科技有限公司⾸席AI科学家

内容校对|李瑶

01

多模态⼤模型的历史发展

牛博带你学AI搜集整理

上图这张照⽚是1956年在美国达特茅斯学院召开的第⼀届⼈⼯智能workshop,这次会议也被认为拉开

了⼈⼯智能的序幕,与会者主要是符号逻辑学届的前驱(除了前排中间的神经⽣物学家Peter

Milner)。

然⽽这套符号逻辑学理论在随后的很⻓⼀段时间内都⽆法实现,甚⾄到80年代90年代还迎来了第⼀

次AI寒冬期。直到最近⼤语⾔模型的落地,我们才发现真正承载这个逻辑思维的是神经⽹络,神经⽣

物学家PeterMilner的⼯作激发了后来⼈⼯神经⽹络的发展,也正因为此他被邀请参加了这个学术研

讨会。

2012年,Tesla⾃动驾驶主管Andrew在博客上发布了上⾯这张图,显示当时美国总统奥巴⻢和⾃⼰的

下属开玩笑。要让⼈⼯智能去理解这张图,不仅是⼀个视觉感知任务,因为除了要识别物体,还需要

理解他们之间的关系;只有知道体重秤的物理原理,才能知道图⾥描述的故事:奥巴⻢踩了秤,导致

秤上的⼈体重升⾼,他因此做出了这个奇怪的表情,同时其他⼈在⼀旁笑。这样的逻辑思维显然已经

超出了纯粹的视觉感知范畴,因此必须将视觉认知和逻辑思维结合到⼀起,才能摆脱“⼈⼯智障”的尴

尬,⽽多模态⼤模型的重要性和困难性也体现在这⾥。

上图是⼈类⼤脑的解剖结构图,图中的语⾔逻辑区对应的就是⼤语⾔模型,⽽其他的区域则分别对应

着不同的感官,包括视觉、听觉、触觉、运动、记忆等等。虽然⼈⼯神经⽹络并不是真正意义上的脑

神经⽹络,但还是可以从中受到⼀些启发,即构造⼤模型的时候,可以将不同的功能联合在⼀起,这

也是多模态模型构建的基本思想。

1.

多模态⼤模型可以做什么?

牛博带你学AI搜集整理

多模态⼤模型可以为我们做很多事情,例如视频理解,⼤模型可以帮我们总结视频的摘要以及关键信

息,从⽽节约我们看视频的时间;⼤模型还可以帮助我们进⾏视频的后期分析,例如节⽬分类、节⽬

收视率统计等;此外,⽂⽣图也是多模态⼤模型的⼀个重要的应⽤领域。

⽽⼤模型如果和⼈的运动,或者机器⼈的运动联合在⼀起,就会产⽣⼀个具身智能体,就像⼈⼀样,

基于过往经验规划最佳路径的⽅法,并应⽤到全新的场景中,解决⼀些先前没有遇⻅过的问题,同时

规避⻛险;甚⾄可以在执⾏过程中修改原有计划,直到最后获得成功。这也是⼀个具有⼴泛前景的应

⽤场景。

2.

多模态⼤模型

上图是多模态⼤模型在发展过程中的⼀些重要节点:

2020年的ViT模型(VisionTransformer)是⼤模型的开端,⾸次将Transformer架

构⽤到除语⾔和逻辑处理外的其它类型数据(视觉数据),并且显示了好的泛化

能⼒;

随后通过OpenAI开源的CLIP模型,再次证明了通过ViT和⼤语⾔模型的使⽤,视觉

任务实现了很强的⻓尾泛化能⼒,即通过常识推测先前没有⻅过的类别

到了2023年,各式各样的多模态⼤模型逐渐显现,从PaLM-E(机器⼈),到

whisper(语⾳识别),再到ImageBind(图像对⻬),再到Sam(语义分割),最

后到地理图像;还包括微软的统⼀多模态架构Kosmos,多模态⼤模型发展迅速。

牛博带你学AI搜集整理

特斯拉在6⽉的CVPR还提出了通⽤世界模型这样的愿景。

从上图可以看出,短短半年时间,⼤模型就发⽣了⾮常多的变化,其迭代速度是⾮常快的。

3.模态对⻬架构

上图是多模态⼤模型的通⽤架构图,包含⼀个语⾔模型、⼀个视觉模型,通过固定语⾔模型和固定视

觉模型进⽽学习对⻬模型;⽽对⻬就是将视觉模型的⽮量空间和语⾔模型的⽮量空

文档评论(0)

133****9720 + 关注
实名认证
内容提供者

物业管理师证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

相关文档