空间轨迹:通过空间-时间理解增强 VLA 模型.pdfVIP

  • 1
  • 0
  • 约3.96万字
  • 约 8页
  • 2026-03-06 发布于北京
  • 举报

空间轨迹:通过空间-时间理解增强 VLA 模型.pdf

空间轨迹:通过

空间-时间理解增强VLA模型

MaximA.PatratskiyandAlexeyK.KovalevandAleksandrI.Panov

Abstract—视觉-语言-动作模型已经展示了基于视觉观作任务中尤为明显,因为在这些任务中时间背景对于

察和文本指令预测虚拟环境及现实场景中代理行为的显著能成功执行至关重要。

力。尽管最近的研究主要集中在独立提升空间和时间理解上,本

文提出了一种通过视觉提示将这两个方面结合的新方法。我们最近的视觉语言模型(VLMs)的发展表明,可

介绍了一种方法,该方法将观察中的关键点视觉轨迹投影到深以通过在视觉空间中提供上下文信息来有效提示这些

度图上,使模型能够同时捕捉空间和时间信息。在SimplerEnv

模型。模型可能通过在任务执行期间预测操作器的轨

中的实验表明,成功完成任务的平均数量比SpatialVLA增加

本了4%,比TraceVLA增

文档评论(0)

1亿VIP精品文档

相关文档