- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
多态大模型平台的应用研发与思考
导读本⽂将分享九章云极DataCanvas在多模态⼤模型平台⽅⾯的⼀些思考和实践。
本次介绍会围绕下⾯的内容展开:
1.多模态⼤模型的历史发展
2.九章云极DataCanvas的多模态⼤模型平台
3.九章云极DataCanvas多模态⼤模型的实践
4.对未来的思考与展望
分享嘉宾|缪旭北京九章云极科技有限公司⾸席AI科学家
内容校对|李瑶
01
多模态⼤模型的历史发展
牛博带你学AI搜集整理
上图这张照⽚是1956年在美国达特茅斯学院召开的第⼀届⼈⼯智能workshop,这次会议也被认为拉开
了⼈⼯智能的序幕,与会者主要是符号逻辑学届的前驱(除了前排中间的神经⽣物学家Peter
Milner)。
然⽽这套符号逻辑学理论在随后的很⻓⼀段时间内都⽆法实现,甚⾄到80年代90年代还迎来了第⼀
次AI寒冬期。直到最近⼤语⾔模型的落地,我们才发现真正承载这个逻辑思维的是神经⽹络,神经⽣
物学家PeterMilner的⼯作激发了后来⼈⼯神经⽹络的发展,也正因为此他被邀请参加了这个学术研
讨会。
2012年,Tesla⾃动驾驶主管Andrew在博客上发布了上⾯这张图,显示当时美国总统奥巴⻢和⾃⼰的
下属开玩笑。要让⼈⼯智能去理解这张图,不仅是⼀个视觉感知任务,因为除了要识别物体,还需要
理解他们之间的关系;只有知道体重秤的物理原理,才能知道图⾥描述的故事:奥巴⻢踩了秤,导致
秤上的⼈体重升⾼,他因此做出了这个奇怪的表情,同时其他⼈在⼀旁笑。这样的逻辑思维显然已经
超出了纯粹的视觉感知范畴,因此必须将视觉认知和逻辑思维结合到⼀起,才能摆脱“⼈⼯智障”的尴
尬,⽽多模态⼤模型的重要性和困难性也体现在这⾥。
上图是⼈类⼤脑的解剖结构图,图中的语⾔逻辑区对应的就是⼤语⾔模型,⽽其他的区域则分别对应
着不同的感官,包括视觉、听觉、触觉、运动、记忆等等。虽然⼈⼯神经⽹络并不是真正意义上的脑
神经⽹络,但还是可以从中受到⼀些启发,即构造⼤模型的时候,可以将不同的功能联合在⼀起,这
也是多模态模型构建的基本思想。
1.
多模态⼤模型可以做什么?
牛博带你学AI搜集整理
多模态⼤模型可以为我们做很多事情,例如视频理解,⼤模型可以帮我们总结视频的摘要以及关键信
息,从⽽节约我们看视频的时间;⼤模型还可以帮助我们进⾏视频的后期分析,例如节⽬分类、节⽬
收视率统计等;此外,⽂⽣图也是多模态⼤模型的⼀个重要的应⽤领域。
⽽⼤模型如果和⼈的运动,或者机器⼈的运动联合在⼀起,就会产⽣⼀个具身智能体,就像⼈⼀样,
基于过往经验规划最佳路径的⽅法,并应⽤到全新的场景中,解决⼀些先前没有遇⻅过的问题,同时
规避⻛险;甚⾄可以在执⾏过程中修改原有计划,直到最后获得成功。这也是⼀个具有⼴泛前景的应
⽤场景。
2.
多模态⼤模型
上图是多模态⼤模型在发展过程中的⼀些重要节点:
2020年的ViT模型(VisionTransformer)是⼤模型的开端,⾸次将Transformer架
构⽤到除语⾔和逻辑处理外的其它类型数据(视觉数据),并且显示了好的泛化
能⼒;
随后通过OpenAI开源的CLIP模型,再次证明了通过ViT和⼤语⾔模型的使⽤,视觉
任务实现了很强的⻓尾泛化能⼒,即通过常识推测先前没有⻅过的类别
到了2023年,各式各样的多模态⼤模型逐渐显现,从PaLM-E(机器⼈),到
whisper(语⾳识别),再到ImageBind(图像对⻬),再到Sam(语义分割),最
后到地理图像;还包括微软的统⼀多模态架构Kosmos,多模态⼤模型发展迅速。
牛博带你学AI搜集整理
特斯拉在6⽉的CVPR还提出了通⽤世界模型这样的愿景。
从上图可以看出,短短半年时间,⼤模型就发⽣了⾮常多的变化,其迭代速度是⾮常快的。
3.模态对⻬架构
上图是多模态⼤模型的通⽤架构图,包含⼀个语⾔模型、⼀个视觉模型,通过固定语⾔模型和固定视
觉模型进⽽学习对⻬模型;⽽对⻬就是将视觉模型的⽮量空间和语⾔模型的⽮量空
文档评论(0)