- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
启航225
提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity
提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity
VLA融合了感知空间与动作空间,给出了两个空间与三大任务:两大空间:从感知或观察空间到动作空间,还是从动作空间到感知空间?两个空间之间的单段式或单模型一体化相互作用;三个下游微调模型,即三大任务:具身理解、具身推理与具身动作生成大模型;基于上述三大微调模型,可优化训练更多的下游微调模型本质上将VLM面向数字空间的理解与生成推向了面向物理世界的理解与生成!感知空间动作空间决策推理或策略1、多模态大模型推动具身智能体发展2025中国汽车流通行业新春启航大会暨促消费大会VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型一、范式变革:基于多模态大模型的自动驾驶技术
-性能增强的VLA:可望提升图像、视频、3D点云与语义地图等多模态数据的语义对齐水平,从而获得更好的交叉理解;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会
-性能增强的VLA:也可望改善开放场景下的实例分割与目标检测准确率,实现更好的视觉“分词”;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术如谷歌Waymo达到99.3%VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会
-性能增强的VLA:对时空动态场景的预测,或将有效嵌入真实世界的物理学规律,从而获得更好的避碰能力;1、多模态大模型推动具身智能体发展一、范式变革:基于多模态大模型的自动驾驶技术VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型
-性能增强的VLA:通过进一步引入小脑模型,可望获得更加精准、鲁棒与细滑的行为与动作生成。一、范式变革:基于多模态大模型的自动驾驶技术1、多模态大模型推动具身智能体发展VLM:视觉-语言(文本)模型VLA:视觉-语言-动作模型2025中国汽车流通行业新春启航大会暨促消费大会
VLA的决策推理势必面临更大的挑战,但却更有研发意义与落地应用价值,包括:安全、效率、舒适度与低碳等多指标评估体系及其动态优化算法;利用推理大模型DeepSeek等的应用潜力,如完成百万量级合成场景训练下的决 策鲁棒性验证实验(将接管率推进到每10万公里1-3次),将轨迹规划的实时响 应时间从传统的150ms缩短至50ms左右。推理型大模型DeepSeek-R1及其蒸馏版系列感知空间动作空间决策推理或策略2、决策与规划:推动构建世界模型驱动的一段式端到端智能体2025中国汽车流通行业新春启航大会暨促消费大会一、范式变革:基于多模态大模型的自动驾驶技术
提纲 OUTLINES一、范式变革:基于多模态大模型的自动驾驶技术二、世界模型驱动的一段式端到端解决方案可望获得突破三、发展趋势:从感知智能到认知智能清华大学人工智能研究院视觉智能研究中心VisualIntelligenceResearchCenter(VIRC),InstituteforArtificialIntelligence,TsinghuaUniversity
二、世界模型驱动的一段式端到端解决方案可望获得突破2025中国汽车流通行业新春启航大会暨促消费大会-实现工业化合成数据,包括利用世界模型与世界模拟器生成百万量级的边缘事件时空场景,实现世界模型引擎与真实路测数据的闭环验证,不仅获得更加逼真的场景模拟,而且可大幅降低时空场景数据合成的生产成本。1、世界模拟器引擎:时空场景合成数据的巨量生成
二、世界模型驱动的一段式端到端解决方案可望获得突破-4D时空世界模拟:3维空间+1维时间,智能体在4D世界中与环境、其他智能体及人类进行交互式学习,以端到端数据驱动方式实现物理规律模拟,从而获得空间智能。1
您可能关注的文档
- 《天才法案:指导与建立美国稳定币国家创新法案》(英文).docx
- 51testing:2024年软件测试行业现状调查报告.docx
- common sense:生成式AI在K-12教育中的挑战和机遇.docx
- Gartner 2024机器人流程自动化魔力象限-英文版.docx
- Gartner 2024机器人流程自动化魔力象限-中文版.docx
- Abundance360:2025-2035年人形机器人发展趋势报告.pptx
- Fastdata极数:全球AR和VR行业发展趋势报告2025.pptx
- ChatGPT后大模型训练方法-ChatGPT + Post-Training.pptx
- FT Partners:稳定币:加密货币找到了杀手级应用?.pptx
- 阿里云:AIGC+ 软件开发新范式.docx
最近下载
- 2025秋季四川成都陆港智汇科技服务有限公司成都市青白江区区笔试备考试题附答案.docx VIP
- GB55008-2021 混凝土结构通用规范.pdf VIP
- 详解《铸牢中华民族共同体意识》微课课件.ppt VIP
- 初中古诗文打卡背诵计划表艾宾浩斯2023年更新.pdf VIP
- 预算单位审计常见13类60个问题(含审计方法和步骤、定性依据和处理意见).docx VIP
- (高清版)B-T 5900.2-2022 机床 主轴端部与卡盘连接尺寸 第2部分:凸轮锁紧型.pdf VIP
- 第17课_挽救民族危亡的斗争.pptx VIP
- 消防20-消防设计变更情况说明(仅供参考).docx VIP
- 2025秋季四川成都陆港智汇科技服务有限公司成都市青白江区区模拟试卷附答案.docx VIP
- AF7500仪器说明书.doc VIP
原创力文档


文档评论(0)