- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
通用操作接口:野外机器人教学没有野外机器人
图1:通用操作接口(UMI)是一个便携、直观、低成本的数据收集和政策学习框架。这个框架允许我们将多样化的人类演示迁移到有效的视觉运动策略。我们展示了传统遥操作难以完成的任务的框架,如动态、精确、双手和长视距任务。
摘要-我们提出了通用操作接口(UMI)-一个数据收集和策略学习框架,允许从野外人类演示直接技能转移到可部署的机器人策略。UMI采用手持夹具加上精心的界面设计,使便携式,低成本和信息丰富的数据收集具有挑战性的双手动和动态操作演示。为了促进可部署的策略学习,UMI结合了一个精心设计的策略接口,该接口具有推理时间延迟匹配和相对轨迹动作表示。由此学习到的策略与硬件无关,可在多个机器人平台上部署。配备了这些功能,UMI框架解锁了新的机器人操作能力,允许零射击一般动态,手动,精确和长期视距行为,只需更改每个任务的训练数据。我们通过全面的现实世界实验证明了UMI的多功能性和有效性,通过UMI零射击学到的政策在不同的人类示范训练后可以推广到新的环境和对象。UMI的硬件和软件系统是开源的,网址是https://umi-gripper.github.io。
I.介绍
我们应该如何展示复杂的操作技巧,让机器人学习?该领域的尝试主要从两个方向来解决这个问题:通过遥操作收集有针对性的实验室机器人数据集或利用非结构化的野外人类视频。不幸的是,既不
都是足够的,因为遥操作对硬件和专家操作人员的设置成本要求很高,而人类视频与机器人的体现差距很大。
最近,使用传感器手持抓手作为数据收集接口[41,50,36]已经成为一种很有前途的中间选择——在保持直观和灵活的同时最大限度地减少体现差距。尽管具有潜力,但这些方法仍然难以平衡动作多样性和可移植性。虽然用户理论上可以用这些手持设备收集任何行动,但其中大部分数据无法转移到有效的机器人策略中。因此,尽管在数百个环境中实现了令人印象深刻的视觉多样性,但所收集的动作被限制在简单的抓取[41]或准静态拾取和放置[50,36],缺乏动作多样性。
在之前的工作中,是什么阻碍了动作迁移?我们确定了一些微妙但关键的问题:
?视觉背景不足:虽然使用腕带式相机是对齐观察空间和增强设备便携性的关键,但它限制了场景的视觉覆盖。相机靠近被操纵的物体往往会导致严重的遮挡,为动作规划提供不足的视觉上下文。
?动作不精确:大多数手持设备依赖于单目运动结构(SfM)来恢复机器人动作。然而,这种方法往往难以恢复
*Indicatesequalcontribution
图2:UMI演示界面设计。左:用于数据收集的手持抓手,GoPro是唯一的传感器和记录设备。中:来自GoPro155。鱼眼视角的图像。注意以绿色突出显示的物理侧镜,它提供了隐性的立体信息。右图:兼容umi的机器人抓手和摄像头设置,观察类似于手持抓手的视角。
由于尺度模糊、运动模糊或纹理不足而导致的精确全局动作,这极大地限制了系统可用于的任务的精度。
?延迟差异:在手持数据收集期间,观察和动作记录发生时没有延迟。然而,在推理过程中,各种延迟源,包括传感器、推理和执行延迟,在系统内出现。不知道这些延迟差异的策略将遇到分布外的输入,进而产生不同步的行动。对于快速和动态的行动来说,这个问题尤其突出。
?策略表示不充分:之前的工作经常使用具有动作回归损失的简单策略表示(如mlp),限制了它们捕捉人类数据中固有的复杂多模态动作分布的能力。因此,即使精确地恢复了已演示的行动并删除了所有的差异,所产生的策略仍然可能难以准确地拟合数据。这进一步阻碍了大规模、分布式的人工数据收集,因为更多的示威者增加了行动多模态。
在本文中,我们通过仔细设计演示和政策接口来解决这些问题:
?首先,我们的目标是为人类演示识别正确的物理界面,该界面是直观的,同时能够捕捉到政策学习所需的所有信息。具体来说,我们使用鱼眼镜头来增加视野和视觉上下文,并在抓手上添加侧镜以提供隐式立体观察。当与GoPro内置的IMU传感器相结合时,我们可以在快速运动下实现鲁棒的跟踪。
?其次,探索了正确的策略接口(即观察和动作表示),可以使策略与硬件无关,从而实现有效的技能迁移。具体来说,我们采用推理-时间延迟匹配来处理不同的传感器观察和执行延迟,使用相对轨迹作为动作表示来消除对精确全局动作的需要,最后,应用扩散策略[9]来
建模多模态动作分布。
最后一个系统,通用操作接口(UMI),提供了一个实用和可访问的框架来解锁新
文档评论(0)