高效 EQA: 一种有效的方法用于开放词汇的身体化问题回答.pdfVIP

高效 EQA: 一种有效的方法用于开放词汇的身体化问题回答.pdf

高效EQA:一种有效的方法用于开放词汇的

身体化问题回答

KaiCheng,ZhengyuanLi,XingpengSun,Byung-CheolMin,AmritSinghBedi,AniketBera

PurdueUniversity,USAUniversityofCentralFlorida,USA

Abstract—具身问题回答（EQA）是机器人助手的一项

QuestionExplore

重要但具有挑战性的任务。大型视觉语言模型（VLMs）在Howmany

cushionsarethere

EQA方面显示出潜力，但现有方法要么将其视为静态视频问ontheredsofainVisual

thelivingroom?Observation

答而不进行主动探索，要么将答案限制在一个封闭的选择集合

中。这些局限性阻碍了现实世界的应用，在这种应用中，机器

人必须高效地探索并在开放词汇设置下提供准确的答案。为Blackbox

本了解决这些挑战，我们引入了EﬃcientEQA，这是一个结VLM

译合了高效探索和自由形式答案生成的新框架。EﬃcientEQAAnswerAction

4cushions

具有三个关键创新：(1)语义价值加权前沿探索（SFE）与w/

中StopConfidence

来自黑盒VLM的口头化置信度（VC），以优先考虑对探索Dontexploreany

2语义上重要的区域，使代理能够更快地收集相关信息；(2)further

3基于BLIP相关性的机制自适应地停止通过将高度相关的

6观察标记为异常值来指示代理是否已收集到足够的信息；以Fig.1:我们提出的任务设置。给定一个关于场景的

2及(3)a检索增强生成（RAG）方法，使VLM能够基于

0开放词汇问题：“客厅里的红沙发上共有多少个抱

2.代理观测历史中的相关信息图像准确地答案，而不依赖于枕？”，该问题对机器人代理来说是未知的，我们提出

预定义的选择。我们的实验结果表明，EﬃcientEQA的

1答案准确性提高了超过15%，并且所需的探索步骤比最先的模型可以主动探索环境以获取视觉观察结果，然后

4进的方法减少了超过20%。我们的代码可在以下位置获取：将这些观察结果输入到黑盒VLM中，预测下一步行