- 0
- 0
- 约4.22万字
- 约 10页
- 2025-10-11 发布于北京
- 举报
高效EQA:一种有效的方法用于开放词汇的
身体化问题回答
KaiCheng,ZhengyuanLi,XingpengSun,Byung-CheolMin,AmritSinghBedi,AniketBera
PurdueUniversity,USAUniversityofCentralFlorida,USA
Abstract—具身问题回答(EQA)是机器人助手的一项
QuestionExplore
重要但具有挑战性的任务。大型视觉语言模型(VLMs)在Howmany
cushionsarethere
EQA方面显示出潜力,但现有方法要么将其视为静态视频问ontheredsofainVisual
thelivingroom?Observation
答而不进行主动探索,要么将答案限制在一个封闭的选择集合
中。这些局限性阻碍了现实世界的应用,在这种应用中,机器
人必须高效地探索并在开放词汇设置下提供准确的答案。为Blackbox
本了解决这些挑战,我们引入了EfficientEQA,这是一个结VLM
译合了高效探索和自由形式答案生成的新框架。EfficientEQAAnswerAction
4cushions
具有三个关键创新:(1)语义价值加权前沿探索(SFE)与w/
中StopConfidence
来自黑盒VLM的口头化置信度(VC),以优先考虑对探索Dontexploreany
2语义上重要的区域,使代理能够更快地收集相关信息;(2)further
v
3基于BLIP相关性的机制自适应地停止通过将高度相关的
6观察标记为异常值来指示代理是否已收集到足够的信息;以Fig.1:我们提出的任务设置。给定一个关于场景的
2及(3)a检索增强生成(RAG)方法,使VLM能够基于
0开放词汇问题:“客厅里的红沙发上共有多少个抱
2.代理观测历史中的相关信息图像准确地答案,而不依赖于枕?”,该问题对机器人代理来说是未知的,我们提出
预定义的选择。我们的实验结果表明,EfficientEQA的
0
1答案准确性提高了超过15%,并且所需的探索步骤比最先的模型可以主动探索环境以获取视觉观察结果,然后
4进的方法减少了超过20%。我们的代码可在以下位置获取:将这些观察结果输入到黑盒VLM中,预测下一步行
2/chengkaiAc
您可能关注的文档
最近下载
- 关于建立健全审计查出问题整改长效效机制的意见.docx VIP
- 外墙板拼缝打胶防水专项施工方案.docx VIP
- T_JSEE 0080—2026 车网互动型智能微电网通用规则.docx
- 2025年江苏农林职业技术学院单招《数学》试卷带答案详解(新).docx VIP
- 化工建设项目废物焚烧处置工程设计规范 (HG 20706-2025).docx VIP
- 入党第二季度思想汇报入党积极分子思想汇报2026(2篇).docx VIP
- 2020年安全生产标准化全套档案(参考模板)教学提纲.pdf VIP
- 《酒类风味化学》第3章.pptx VIP
- 2025中国农业科学院棉花研究所第二批招聘7人备考题库及答案解析.docx VIP
- 痛风的治疗路径.ppt VIP
原创力文档

文档评论(0)