视觉-听觉手部姿态和接触估计.pdfVIP

  • 0
  • 0
  • 约3.51万字
  • 约 15页
  • 2026-03-09 发布于北京
  • 举报

视觉-听觉手部姿态和接触估计

YueminMaoUksangYooYunchaoYaoShahramNajamSyed

LucaBondiJonathanFrancisJeanOhJeffreyIchnowski

*同等贡献。

1卡内基梅隆大学机器人研究所,匹兹堡,美国

2博世人工智能中心,匹兹堡,美国

译Abstract

中准确估计手部姿态和手-物体接触事件对于机器人数据采集、沉浸式虚拟环

1境和生物力学分析至关重要,但由于视觉遮挡、微妙的接触线索、仅限视

v

2觉感知的限制以及缺乏可访问且灵活的触觉传感而仍然具有挑战性。因此

5我们引入了VibeMesh,这是一种将视觉与主动声学感知融合的新颖穿戴系

8

0统,用于密集的手部顶点接触和姿态估计。VibeMesh集成了骨传导扬声器和

0稀疏压电麦克风,分布在人手上,发出结构化声学信号并捕捉其传播以推断

.

8由接触引起的变化。为了解释这些跨模式信号,我们提出了一种基于图的注

0意力网络,该网络处理同步音频频谱和从RGB-D导出的手部网格来预测高

5

2空间分辨率下的接触。我们的贡献包括:(i)一种轻量级、非侵入式的视觉-声

:学传感平台;(ii)联合姿态和接触推断的跨模式图网络;(iii)同步的RGB-D、

v

i声学和真实接触注释的数据集,覆盖多种操作场景;以及(iv)经验结果显示

x

rVibeMesh在精度和鲁棒性方面优于仅视觉基准,尤其是在遮挡或静止接触

a

设置中。

1介绍

准确估计人类手部姿态和接触对于机器人遥操作[30,59,9,55]、虚拟现实[52,1]和生物力

学分析[10,35,31]至关重要。在所有这些场景中,了解当和其中手部如何接触环境——连同

其配置——使人们能够推理任务阶段,区分探索与操作,并推断力的动力学。不幸的是,现

实世界的接触感知很难:遮挡、有限的传感器视角和微妙的触碰事件经常使纯视觉方法变得

困惑。

基于视觉的方法通常间接估计接触,将RGB或深度观测与对象几何和典型手部姿态的强先

验结合起来~[14,4,54,41]。模型拟合可以帮助~[47,48,20],但在光线不足的情况下仍然

失败,并且由于遮挡而存在模糊性。直接触觉解决方案,例如电容式和压电手套~[24,18]

或全身套装~[15],在信号保真度方面表现出色,但代价是体积大、成本高以及实用性有限。

同时,可穿戴声学~[57]和跨模态学习~[43]方面的前景进展尚未被用于密集的手对象接触

估计。

Preprint.Underreview.

Visual

Feature

ContactMicrophonesSpectrogramsVibeMeshModel

文档评论(0)

1亿VIP精品文档

相关文档