- 1
- 0
- 约3.96万字
- 约 8页
- 2026-03-06 发布于北京
- 举报
空间轨迹:通过
空间-时间理解增强VLA模型
MaximA.PatratskiyandAlexeyK.KovalevandAleksandrI.Panov
Abstract—视觉-语言-动作模型已经展示了基于视觉观作任务中尤为明显,因为在这些任务中时间背景对于
察和文本指令预测虚拟环境及现实场景中代理行为的显著能成功执行至关重要。
力。尽管最近的研究主要集中在独立提升空间和时间理解上,本
文提出了一种通过视觉提示将这两个方面结合的新方法。我们最近的视觉语言模型(VLMs)的发展表明,可
介绍了一种方法,该方法将观察中的关键点视觉轨迹投影到深以通过在视觉空间中提供上下文信息来有效提示这些
度图上,使模型能够同时捕捉空间和时间信息。在SimplerEnv
模型。模型可能通过在任务执行期间预测操作器的轨
中的实验表明,成功完成任务的平均数量比SpatialVLA增加
本了4%,比TraceVLA增
您可能关注的文档
- 利用多语言编码器改进低资源语言的大型语言模型.pdf
- 在没有受保护属性监督的情况下解决用于青光眼检测的视觉语言模型中的偏差问题.pdf
- 将学习到的图像压缩模型扩展至 10 亿级别.pdf
- VertexRegen : 带有连续细节层次的网格生成.pdf
- FetFIDS: 一种基于特征嵌入注意力的联邦网络入侵检测算法.pdf
- CVCM 轨道电路预测性维护的预判故障诊断使用深度神经网络.pdf
- 构想生成式人工智能在制图和地图制作中的应用.pdf
- 对预请求乘客等待时间在拼车系统中可预测性和可解释性的初步观察.pdf
- 具有过时信道状态信息的下行链路 SDMA 网络的改进 SINR 近似值.pdf
- 偏见缓解的激活导向:一种更安全 LLMs 的可解释方法.pdf
最近下载
- 2009吉利帝豪EC7维修手册.pdf VIP
- DB34T 2233-2021 预制混凝土砌块护坡工程技术规程.docx VIP
- 2025年《消防设施操作员》高级真题专项训练模拟卷.docx VIP
- 肺芽生菌病多学科决策模式中国专家共识(2025版).docx VIP
- DB23_T 3654—2023化工园区消防站建设指南.docx VIP
- 慢性肺芽生菌病多学科决策模式中国专家共识(2025版).docx VIP
- 护理科研与成果转化.pptx VIP
- 土木工程施工知识点总结.pdf VIP
- 消防设施操作员(高级)2025年模拟押题试卷及答案.docx VIP
- 富士变频器VP说明书.pdf VIP
原创力文档

文档评论(0)