探索三维推理驱动的规划:从隐式人类意图到路径感知活动规划.pdfVIP

  • 1
  • 0
  • 约3.51万字
  • 约 11页
  • 2026-03-09 发布于北京
  • 举报

探索三维推理驱动的规划:从隐式人类意图到路径感知活动规划.pdf

探索三维推理驱动的规划:从隐式人类意图到路径感知活动规划

11231∗

XueyingJiang,WenhaoLi,XiaoqinZhang,LingShao,ShijianLu

1CollegeofComputingandDataScience,NanyangTechnologicalUniversity,Singapore

2CollegeofComputerScienceandTechnology,ZhejiangUniversityofTechnology,China

3UCAS-TerminusAILab,UniversityofChineseAcademyofSciences,China

Abstract若干先前的研究(Wuetal.2023;Shridharetal.

2020;Songetal.2023;Chenetal.2024b;Hongetal.

三维任务规划在人机交互和具身人工智能中受到了越来

2023)已经调查了3D任务规划,但大多数在从隐式指

越多的关注,这得益于多模态学习的最新进展。然而,大

令中进行活动推理和跨步骤路线规划方面遇到困难。例

多数现有研究面临着两个共同挑战:1)对显式指令的高

度依赖,并且对隐含用户意图缺乏推理;2)忽视了机器如,ALFRED(Shridharetal.2020)基于明确的指令实

本人移动过程中各步骤之间的路径规划。我们通过提出三现了任务规划,但它无法准确地从模糊或隐式的指令中

译维推理驱动规划来解决上述问题,这是一种新型的3D任推断出具体的活动。TaPA(Wuetal.2023)研究了将

中务,可以从隐含指令中推断出预期活动,并在精细的3D人类指令分解为单独的操作步骤,但它们只关注任务分

物体形状和位置指导下的场景分割中将它们分解为包含解,并没有过多考虑跨步骤路线规划的问题。目前,大

3步骤间路径和规划的多个步骤。我们从两个角度解决了多数现有方法在同时解决活动推理、任务规划和路线规

v

4新的3D任务。首先,我们构建了ReasonPlan3D,这是划时面临各种挑战,难以理解用户的隐式指令并生成路

7一个大规模基准数据集,涵盖了多样化的3D场景以及线计划。

9丰富的隐式指令和多步任务规划、步骤间路径规划及精

2细分割的详细注释。其次,我们设计了一个新颖的框架,我们提出了3D推理驱动规划,一种新型的3D任

1.引入了在多个步骤中保持上下文一致性的逐步计划生成务,该任务从隐式的人类指令中推断出潜在意图和活

3方法,以及一个可以动态更新以捕捉关键对象及其空间动,将推断出的活动分解成多个可执行的逐步计划,并

0

5关系的场景图。广泛的实验表明,我们的基准数据集和通过3D场景理解进行步骤间的路径规划。我们从两

2框架在从隐含人类指令推理活动、产生准确的分步任务个角度来解决这个新的3D任务。首先,我们构建了

:

v计划以及无缝集成多步移动路线规划方面是有效的。该ReasonPlan3D,这是一个大规模且全面的数据集,包

i数据集和代码将被公开发布。含了多样的3D场景、各种隐式的人类指令及其相应的

x

r

a活动、详细的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档