2025大模型时代的新能源汽车自动驾驶发展趋势.pptxVIP

2025大模型时代的新能源汽车自动驾驶发展趋势.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

启航225

提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity

提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity

VLA融合了感知空间与动作空间,给出了两个空间与三大任务:两大空间:从感知或观察空间到动作空间,还是从动作空间到感知空间?两个空间之间的单段式或单模型一体化相互作用;三个下游微调模型,即三大任务:具身理解、具身推理与具身动作生成大模型;基于上述三大微调模型,可优化训练更多的下游微调模型本质上将VLM面向数字空间的理解与生成推向了面向物理世界的理解与生成!感知空间动作空间决策推理或策略1、多模态大模型推动具身智能体发展2025中国汽车流通行业新春启航大会暨促消费大会VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型一、范式变革:基于多模态大模型的自动驾驶技术

-性能增强的VLA:可望提升图像、视频、3D点云与语义地图等多模态数据的语义对齐水平,从而获得更好的交叉理解;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会

-性能增强的VLA:也可望改善开放场景下的实例分割与目标检测准确率,实现更好的视觉“分词”;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术如谷歌Waymo达到99.3%VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会

-性能增强的VLA:对时空动态场景的预测,或将有效嵌入真实世界的物理学规律,从而获得更好的避碰能力;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型

-性能增强的VLA:通过进一步引入小脑模型,可望获得更加精准、鲁棒与细滑的行为与动作生成。一、范式变革:基于多模态大模型的自动驾驶技术1、多模态大模型推动具身智能体发展VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会

VLA的决策推理势必面临更大的挑战,但却更有研发意义与落地应用价值,包括:安全、效率、舒适度与低碳等多指标评估体系及其动态优化算法;利用推理大模型DeepSeek等的应用潜力,如完成百万量级合成场景训练下的决 策鲁棒性验证实验(将接管率推进到每10万公里1-3次),将轨迹规划的实时响 应时间从传统的150ms缩短至50ms左右。推理型大模型DeepSeek-R1及其蒸馏版系列感知空间动作空间决策推理或策略2、决策与规划:推动构建世界模型驱动的一段式端到端智能体2025中国汽车流通行业新春启航大会暨促消费大会一、范式变革:基于多模态大模型的自动驾驶技术

提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity

二、世界模型驱动的一段式端到端解决方案可望获得突破2025中国汽车流通行业新春启航大会暨促消费大会-实现工业化合成数据,包括利用世界模型与世界模拟器生成百万量级的边缘事件时空场景,实现世界模型引擎与真实路测数据的闭环验证,不仅获得更加逼真的场景模拟,而且可大幅降低时空场景数据合成的生产成本。1、世界模拟器引擎:时空场景合成数据的巨量生成

二、世界模型驱动的一段式端到端解决方案可望获得突破-4D时空世界模拟:3维空间+1维时间,智能体在4D世界中与环境、其他智能体及人类进行交互式学习,以端到端数据驱动方式实现物理规律模拟,从而获得空间智能。1

文档评论(0)

lcz0095 + 关注
实名认证
文档贡献者

建筑设计工程师、建筑工程师持证人

本人从事工程类行业

领域认证该用户于2025年02月06日上传了建筑设计工程师、建筑工程师

1亿VIP精品文档

相关文档