蔚来座舱多模态大模型的应用实践-蔚来汽车+牛建伟.docx

下载文档

3
0
约8.07千字
约 59页
2025-01-05 发布于山西
举报
版权申诉
保障服务

蔚来座舱多模态大模型的应用实践-蔚来汽车+牛建伟.docx

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

蔚来座舱多模态大模型的应用实践

演讲人：牛建伟

蔚来

蔚来多模态大模型的价值定位

多模态大模型整体方案

目

视觉模态模型技术实践

听觉模态模型的技术实践

端侧部署方案

MLLM在蔚来座舱中的定位

n多模态大模型是智能座舱3.0的底层核心技术之一，也是蔚来智能座舱塑造差异化的重要方向

①大②完③基OMV3.0智能化i

①大②完

③基OM

V3.0智能化

i①小屏-GUI交互

2025

②多媒体内容触达

■

③基础语音交互上车

屏多屏交互

善的语音交互系统

础舱内视觉感知能力上车S/DMS/手势/守卫模式

①AR-HUD+后排屏成标配②基于MLLM的自然人机交互③联通车内外的多模态感知能力202

①AR-HUD+后排屏成标配

②基于MLLM的自然人机交互

③联通车内外的多模态感知能力

2020

V1.0网联化

V2.0科技化

2015

MLLM在蔚来座舱中的定位

n多模态大模型是支撑主动安全、主动个性化交互以及智能数字空间等体系功能的核心

懂我伴侣DMS/OMS/

懂我伴侣

DMS/OMS/守卫

主动安全保障

基于多模态大模型将多SensOr

感知融合，打造集高可靠性和

高用户体验的主动安全功能

智能数字空间

结合用户多维信息和舱内3D空间全感知能力，基于多模态大模型围绕场景感知和决策，构建有关怀的智能座舱空间

NOMi

自然主动交互

深度整合语音、视觉、车身信

息，为用户提供更主动和个性

化的交互方式，实现贴心自然

的交互体验

多模态大模型

蔚来MLLM的技术路径

n根据团队的技术现状和资源，我们采用了视觉大模型和语音多语言大模型各自推进，最终实现音视觉完全融合的技术路径。从业务角度出发，侧重于车端本地多模态大模型的技术方向，以满足响应速度、复杂路况、用户隐私保护等多方面要求。

蔚来MLLM的功能展示

n赋予语音助手NOMI感知车舱内外的眼睛，让NOMI看得见、认得出、有记忆、会推理

n将哨兵模式记录的各种视频事件总结，生成车辆驻留期间的记录报告，便于车主查询

车辆哨兵模式的视频总结：

一位穿着橙色反光背心的男士，手持扫帚簸箕在爱车前方打扫卫生。

?主动感知--打招呼、问候

?多模交互--语音手势互动

?情景智能--自适应阅读灯

视觉模态技术实践

视觉模态模型的技术实践--模型方案

n以多元视觉模型为核心，利用大语言模型的通识能力，充分挖掘视觉模态模型的感知和理解潜力：

?通用视觉编码器--理解通用视觉概念、进行高维语义抽象

?OCR视觉编码器--理解视觉文本内容、增强细小物体特征

?多尺度特征融合--引入视觉先验知识、多维特征自适应增强

?动态Token压缩--冗余视觉信息消除、挖掘有效视觉上下文

?大语言模型--充分利用LLM的理解、推理和涌现能力

n模型以不同大小图像、不同长度视频和文本作为输入，以统一的文本形式作为输出。

视觉模态模型的技术实践--训练流程

n三阶段训练：1）多模态预训练；2）多模态监督微调；3）多模态偏好对齐；

Step1:预训练阶段对齐视觉语言模态的隐特征空间。

Step2:监督微调阶段利用LLM增强视觉概念的理解和视觉语义的推理。

Step3:偏好对齐阶段针对特定场景的输出对齐并消除视觉模态的幻觉。

训练模块：

?多元视觉编码器

?多尺度特征融合模块

?动态Token压缩模块

训练模块：

?多元视觉编码器

?多尺度特征融合模块

?动态Token压缩模块

?双语大语言模型

训练模块：

?多尺度特征融合模块

?动态Token压缩模块

?双语大语言模型

视觉模态模型的技术实践--数据构建

n对于不同的训练阶段，需要针对性地构建不同任务、不同配比、不同格式、不同指令的训练数据。

n以视觉详细描述为例，NIO的构建流程包括：参考描述生成、幻觉物体移除、区域描述提炼和空间关系矫正四个步骤。

视觉详细描述生成流程

视觉模态模型的技术实践--实验分析

n多分辨率视觉输入对模型效果的影响

?通过动态多patch的方法，可以在相同视觉token数情况下获得更好效果，并且随着patch数增加效果持续提升；

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1393人已咨询）服务中

1亿VIP精品文档

更多 >

蔚来座舱多模态大模型的应用实践-蔚来汽车+牛建伟.docx