视觉-语言-动作(VLA)模型的前世今生.pdfVIP

  • 1
  • 0
  • 约2.1万字
  • 约 6页
  • 2026-05-14 发布于福建
  • 举报

专题月2025年8月

第1卷第4期

计算第

视觉-语言-动作(VLA)模型的

前世今生

王寄哲张伟男刘挺

哈尔滨工业大学

引言令映射到物理动作,上下文理解和泛化能力显著增强

如图1所示,传统机器人系统通常采用模块化设

视觉语言-动作(vision-language-action,VLA)模计,如分别训练感知、规划和控制模块,这种方法易受

型在2023年7月谷歌DeepMind发布RT-2模型时单个模块误差影响并难以实现跨任务的泛化。相较之

首次被正式提出,引发了学术界对多模态感知与机器下,VLA模型端到端框架可以减少模块间传递的累积

人动作一体化的广泛关注。随后,斯坦福大学等机构误差,并凭借预训练大规模视觉语言模型所带来的丰

于2024年发布OpenVLA[

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档