GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdfVIP

  • 0
  • 0
  • 约2.56万字
  • 约 7页
  • 2026-02-26 发布于北京
  • 举报

GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf

GestOS:通过大型语言模型进行高级手势解

析以控制任何类型的机器人

ArtemLykovOlegKobzarevDzmitryTsetserukou

ISRLabISRLabISRLab

SkoltechSkoltechSkoltech

Moscow,RussiaMoscow,RussiaMoscow,Russia

artem.lykov@skoltech.ruoleg.kobzarev@skoltech.rud.tsetserukou@skoltech.ru

摘要—我们提出了操作系统状态更新,这是一个基于手势

本的操作系统,用于异构机器人团队的高级控制。与先前将手势映

译射到固定命令或单个代理动作的系统不同,GestOS语义解释

中手部手势,并根据其能力和当前状态以及支持的指令集动态分配

任务给多个机器人。该系统结合了轻量级视觉感知和大型语言模

1型(LLM)推理:手部姿态被转换为结构化的文本描述,LLM

v

2使用这些描述来推断意图并生成针对特定机器人的命令。一个机

1器人选择模块确保每个由手势触发的任务都能实时匹配到最适

4

4合的代理。这种架构实现了具有上下文感知能力的自适应控制,

1而无需用户明确指定目标或命令。通过将手势交互从识别提升为

.

9智能编排,GestOS支持在动态环境中与机器人系统进行可扩

0展、灵活和用户友好的协作。

5

2IndexTerms—手势识别,人机交互,大语言模型

:图1.GestOS系统概述。

v

iI.介绍

x

r自然直观的人机交互(HCI[1])和人机交互最新进展改进了泛化能力[13],但往往伴随着高计算开

a

(HRI[2])是在开发与人类共同操作的智能系统中面销、实时执行支持不足以及与机器人控制功能集成有限

临的重大挑战之一。在可用的交流方式[3][4]中,手的问题。

势提供了一种富有表现力且非语言的沟通渠道,这种渠在这项工作中,我们介绍了操作系统状态,一个

道很好地契合了人类的直觉和空间推理能力[5]。然而,基于手势的操作系统,旨在实现对异构机器人平台的

尽管具有潜力,基于手势的控制系统仍然受限于其灵高级、灵活和可扩展控制。GestOS建立在大型语言模

活性、通用性和可扩展性——尤其是在动态或多代理环型(LLMs)用于语义推理的优势之上,同时通过轻量

境中[6],[7]。级、结构化的视觉输入保持实时响应能力。具体而言,

传统手势识别方法高度依赖预定义的手势词汇表GestOS使用手部姿态估计管道(MediaPipe[14])提取

[8]–[10]和基于规则的映射[11],[12],这限制了适应性,手势的符号描述,然后由LLM解释以推断用户意图。

并且需要重新训练以支持新的命令或上下文。视觉语与之前专注于手势分类或命令映射的系统(如

言模型(VLMs)和视觉语言动作(VLA)系统方面的GestLLM或GestureGPT)不同,GestOS通过引入

多机器人任务分配作为核心功能来推进这一范式。。当

Researchreportedinthispublicationwasfinanciallysupportedbythe

RSFgrantNo.24-41-02039.执行一个手势时,GestOS不仅推理其语义含义,还考

虑多个可用机器人当前的状态、能力和命令接口。它动别、视觉

文档评论(0)

1亿VIP精品文档

相关文档