开放词汇部件抓取.pdfVIP

开放词汇部件抓取.pdf

开放词汇部件抓取

TjeardvanOort,DimityMiller,WillN.Browne,NicolásMarticorena,JesseHaviland,NikoSuenderhauf

Abstract—许多机器人任务需要在特定的对象部位抓取

“Grasptheredmugbythehandle”

物体，而不是随意抓取，这是超越简单拾取和放置的重要能力，

例如人机交互、交接或工具使用。先前的工作要么专注于通用

的抓取预测，要么是基于任务条件的抓取，但没有直接以开放

词汇的方式针对对象部位。我们提出AnyPart，一个模块化框

架，统一了开放词汇的对象检测、部件分割以及6自由度抓取

预测，使机器人能够根据自然语言提示抓取任意物体的用户指Open-VocabularyOpen-Vocabulary

GraspPosePrediction

定部分。我们评估了16种模型组合，并证明表现最佳的组合在ObjectDetectionPartSegmentation

杂乱的真实世界场景中实现了60.8%的抓取成功率，推理速度

本比现有方法快60倍。为了支持这项研究，我们引入了一个新

的基于部件的抓取数据集，并进行了详细的失败分析。我们的

译核心见解是，通过模块化组合现有的基础模型可以解锁令人惊

中讶的强大且高效的开放词汇部件抓取能力，而无需额外训练。GraspExecution

vI.介绍

5机器人在人类环境中必须以语义上有意义的方式

5抓取物体，目标是特定部位而不是任意接触点。例如，

0.当被要求“拿一杯咖啡”时，机器人应该通过把手抓Fig.1:AnyPart实现了基于开放词汇表的部分抓取。

0住杯子，使其容易交接。如果相反被要求“切蔬菜”，给定一个自然语言查询，例如“通过把手抓住红色的

4它必须通过刀柄而非刀刃来握住刀具。这些例子强调马克杯”，AnyPart使用基础模型来检测相关对象、分

:了一种基本能力：基于用户意图的特定部位抓取。机割所指部分，并生成6自由度抓取姿态。AnyPart展

i器人应能够以开放词汇的方式通过任何部分抓住任何示了如何利用开放词汇表的部分理解能力，实现对超

r对象。出封闭训练词汇表范围的日常物品进行针对性交互。

尽管最近的抓取系统能够生成稳健的6自由度预

测～[1]–[4]，但它们缺乏语义理解能力来在特定物体在本文中，我们介绍了任何部分，一个用于开放

部位进行抓取。面向任务的抓取方法～[5]–[7]结合了词汇部件抓取的模块化框架，该框架能在两秒内生成

更高层次的目标，但这些系统不允许用户明确指定物抓取建议。AnyPart将任务分解为三个阶段：对象检

体部位，也不适用于任意的语言提示。测、部件分割和抓取预测，并在每个模块中集成了最

Lerf-TOGO[8]最近通过结合语言驱动的辐射场先进的基础模型。这种模块化使得AnyPart可以灵活

与抓取合成，引入了基于开放词汇的部分抓取。虽然地利用改进的新基础模型。

有效，但Lerf-TOGO需要超过100秒的时间从多个视我们在使用FrankaEmikaPanda臂进行的1,000

角训练一个嵌入语言的辐射场，以生成单次抓取。这次真实抓取试验中进行了广泛的实验，并发布了两个