- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
蔚来座舱多模态大模型的应用实践
演讲人:牛建伟
蔚来
蔚来多模态大模型的价值定位
多模态大模型整体方案
目
目录
视觉模态模型技术实践
听觉模态模型的技术实践
听觉模态模型的技术实践
端侧部署方案
05
MLLM在蔚来座舱中的定位
n多模态大模型是智能座舱3.0的底层核心技术之一,也是蔚来智能座舱塑造差异化的重要方向
①大②完③基OMV3.0智能化i
①大②完
③基OM
V3.0智能化
i①小屏-GUI交互
2025
②多媒体内容触达
■
③基础语音交互上车
屏多屏交互
善的语音交互系统
础舱内视觉感知能力上车S/DMS/手势/守卫模式
①AR-HUD+后排屏成标配②基于MLLM的自然人机交互③联通车内外的多模态感知能力202
①AR-HUD+后排屏成标配
②基于MLLM的自然人机交互
③联通车内外的多模态感知能力
2020
V1.0网联化
V2.0科技化
2015
MLLM在蔚来座舱中的定位
n多模态大模型是支撑主动安全、主动个性化交互以及智能数字空间等体系功能的核心
懂我伴侣DMS/OMS/
懂我伴侣
DMS/OMS/守卫
主动安全保障
基于多模态大模型将多SensOr
感知融合,打造集高可靠性和
高用户体验的主动安全功能
智能数字空间
结合用户多维信息和舱内3D空间全感知能力,基于多模态大模型围绕场景感知和决策,构建有关怀的智能座舱空间
NOMi
自然主动交互
深度整合语音、视觉、车身信
息,为用户提供更主动和个性
化的交互方式,实现贴心自然
的交互体验
多模态大模型
蔚来MLLM的技术路径
n根据团队的技术现状和资源,我们采用了视觉大模型和语音多语言大模型各自推进,最终实现音视觉完全融合的技术路径。从业务角度出发,侧重于车端本地多模态大模型的技术方向,以满足响应速度、复杂路况、用户隐私保护等多方面要求。
蔚来MLLM的功能展示
n赋予语音助手NOMI感知车舱内外的眼睛,让NOMI看得见、认得出、有记忆、会推理
n将哨兵模式记录的各种视频事件总结,生成车辆驻留期间的记录报告,便于车主查询
车辆哨兵模式的视频总结:
一位穿着橙色反光背心的男士,手持扫帚簸箕在爱车前方打扫卫生。
?主动感知--打招呼、问候
?多模交互--语音手势互动
?情景智能--自适应阅读灯
视觉模态技术实践
视觉模态模型的技术实践--模型方案
n以多元视觉模型为核心,利用大语言模型的通识能力,充分挖掘视觉模态模型的感知和理解潜力:
?通用视觉编码器--理解通用视觉概念、进行高维语义抽象
?OCR视觉编码器--理解视觉文本内容、增强细小物体特征
?多尺度特征融合--引入视觉先验知识、多维特征自适应增强
?动态Token压缩--冗余视觉信息消除、挖掘有效视觉上下文
?大语言模型--充分利用LLM的理解、推理和涌现能力
n模型以不同大小图像、不同长度视频和文本作为输入,以统一的文本形式作为输出。
视觉模态模型的技术实践--训练流程
n三阶段训练:1)多模态预训练;2)多模态监督微调;3)多模态偏好对齐;
Step1:预训练阶段对齐视觉语言模态的隐特征空间。
Step2:监督微调阶段利用LLM增强视觉概念的理解和视觉语义的推理。
Step3:偏好对齐阶段针对特定场景的输出对齐并消除视觉模态的幻觉。
训练模块:
?多元视觉编码器
?多尺度特征融合模块
?动态Token压缩模块
训练模块:
?多元视觉编码器
?多尺度特征融合模块
?动态Token压缩模块
?双语大语言模型
训练模块:
?多尺度特征融合模块
?动态Token压缩模块
?双语大语言模型
视觉模态模型的技术实践--数据构建
n对于不同的训练阶段,需要针对性地构建不同任务、不同配比、不同格式、不同指令的训练数据。
n以视觉详细描述为例,NIO的构建流程包括:参考描述生成、幻觉物体移除、区域描述提炼和空间关系矫正四个步骤。
视觉详细描述生成流程
视觉模态模型的技术实践--实验分析
n多分辨率视觉输入对模型效果的影响
?通过动态多patch的方法,可以在相同视觉token数情况下获得更好效果,并且随着patch数增加效果持续提升;
您可能关注的文档
- A股市场2025年度投资策略:拥抱高质量发展.docx
- 安联:2025-2026全球经济展望:逆势而行?+Global+Economic+Outlook+2025-26:Defying+gravity?.docx
- 电新行业(风光储)2025年度策略:需求侧稳健,供给侧发力.docx
- 多租户下的算力分配和调度实践-贝壳找房+王天庆.docx
- 构建企业级+RAG+系统的创新实践-阿里云+费跃.docx
- 国博电子_+高价值组件核心供应商,有望受益卫星互联网大规模建设.docx
- 化妆品行业2025年度投资策略:国货替代逻辑持续兑现,弱复苏背景下凸显强α.docx
- 如何利用+Agent+解决企业数据分析与洞察的经验探索-数势科技+李飞.docx
- 如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛.docx
- 使用多模态模型构建适用于+LLM+搜索的数据-矩阵起源+赵晨阳.docx
最近下载
- Unit10Lesson1HowCloselyConnectedAreWe教学设计-2023-2024学年高中英语北师大版(2019)选择性必修第四册.docx
- 梅特勒-托利多 产品说明书 精密天平和比较器 XPR型号.pdf
- MQL4命令手册精品管理.pdf
- 庆元二中 项目化学习案例2《初中生背负书包重量研究》.docx VIP
- 高等数学PPT课件(共13章)第4章不定积分.pptx VIP
- 成人流行性感冒抗病毒治疗专家共识(2022年)解读.pptx
- 脓毒血症最新指南解读(完整版).pptx VIP
- Q_GDW 1914-2013 继电保护和安全自动装置验收.PDF
- CQC1325-2018 信息系统机房动力及环境系统认证技术规范.pdf VIP
- 车间主管年终总结.docx VIP
文档评论(0)