网站大量收购闲置独家精品文档,联系QQ:2885784924

蔚来座舱多模态大模型的应用实践-蔚来汽车+牛建伟.docx

蔚来座舱多模态大模型的应用实践-蔚来汽车+牛建伟.docx

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

蔚来座舱多模态大模型的应用实践

演讲人:牛建伟

蔚来

蔚来多模态大模型的价值定位

多模态大模型整体方案

目录

视觉模态模型技术实践

听觉模态模型的技术实践

听觉模态模型的技术实践

端侧部署方案

05

MLLM在蔚来座舱中的定位

n多模态大模型是智能座舱3.0的底层核心技术之一,也是蔚来智能座舱塑造差异化的重要方向

①大②完③基OMV3.0智能化i

①大②完

③基OM

V3.0智能化

i①小屏-GUI交互

2025

②多媒体内容触达

③基础语音交互上车

屏多屏交互

善的语音交互系统

础舱内视觉感知能力上车S/DMS/手势/守卫模式

①AR-HUD+后排屏成标配②基于MLLM的自然人机交互③联通车内外的多模态感知能力202

①AR-HUD+后排屏成标配

②基于MLLM的自然人机交互

③联通车内外的多模态感知能力

2020

V1.0网联化

V2.0科技化

2015

MLLM在蔚来座舱中的定位

n多模态大模型是支撑主动安全、主动个性化交互以及智能数字空间等体系功能的核心

懂我伴侣DMS/OMS/

懂我伴侣

DMS/OMS/守卫

主动安全保障

基于多模态大模型将多SensOr

感知融合,打造集高可靠性和

高用户体验的主动安全功能

智能数字空间

结合用户多维信息和舱内3D空间全感知能力,基于多模态大模型围绕场景感知和决策,构建有关怀的智能座舱空间

NOMi

自然主动交互

深度整合语音、视觉、车身信

息,为用户提供更主动和个性

化的交互方式,实现贴心自然

的交互体验

多模态大模型

蔚来MLLM的技术路径

n根据团队的技术现状和资源,我们采用了视觉大模型和语音多语言大模型各自推进,最终实现音视觉完全融合的技术路径。从业务角度出发,侧重于车端本地多模态大模型的技术方向,以满足响应速度、复杂路况、用户隐私保护等多方面要求。

蔚来MLLM的功能展示

n赋予语音助手NOMI感知车舱内外的眼睛,让NOMI看得见、认得出、有记忆、会推理

n将哨兵模式记录的各种视频事件总结,生成车辆驻留期间的记录报告,便于车主查询

车辆哨兵模式的视频总结:

一位穿着橙色反光背心的男士,手持扫帚簸箕在爱车前方打扫卫生。

?主动感知--打招呼、问候

?多模交互--语音手势互动

?情景智能--自适应阅读灯

视觉模态技术实践

视觉模态模型的技术实践--模型方案

n以多元视觉模型为核心,利用大语言模型的通识能力,充分挖掘视觉模态模型的感知和理解潜力:

?通用视觉编码器--理解通用视觉概念、进行高维语义抽象

?OCR视觉编码器--理解视觉文本内容、增强细小物体特征

?多尺度特征融合--引入视觉先验知识、多维特征自适应增强

?动态Token压缩--冗余视觉信息消除、挖掘有效视觉上下文

?大语言模型--充分利用LLM的理解、推理和涌现能力

n模型以不同大小图像、不同长度视频和文本作为输入,以统一的文本形式作为输出。

视觉模态模型的技术实践--训练流程

n三阶段训练:1)多模态预训练;2)多模态监督微调;3)多模态偏好对齐;

Step1:预训练阶段对齐视觉语言模态的隐特征空间。

Step2:监督微调阶段利用LLM增强视觉概念的理解和视觉语义的推理。

Step3:偏好对齐阶段针对特定场景的输出对齐并消除视觉模态的幻觉。

训练模块:

?多元视觉编码器

?多尺度特征融合模块

?动态Token压缩模块

训练模块:

?多元视觉编码器

?多尺度特征融合模块

?动态Token压缩模块

?双语大语言模型

训练模块:

?多尺度特征融合模块

?动态Token压缩模块

?双语大语言模型

视觉模态模型的技术实践--数据构建

n对于不同的训练阶段,需要针对性地构建不同任务、不同配比、不同格式、不同指令的训练数据。

n以视觉详细描述为例,NIO的构建流程包括:参考描述生成、幻觉物体移除、区域描述提炼和空间关系矫正四个步骤。

视觉详细描述生成流程

视觉模态模型的技术实践--实验分析

n多分辨率视觉输入对模型效果的影响

?通过动态多patch的方法,可以在相同视觉token数情况下获得更好效果,并且随着patch数增加效果持续提升;

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档