GestOS：通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdfVIP

下载本文档

0
0
约2.56万字
约 7页
2026-02-26 发布于北京
举报

GestOS：通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf

GestOS：通过大型语言模型进行高级手势解

析以控制任何类型的机器人

ArtemLykovOlegKobzarevDzmitryTsetserukou

ISRLabISRLabISRLab

SkoltechSkoltechSkoltech

Moscow,RussiaMoscow,RussiaMoscow,Russia

artem.lykov@skoltech.ruoleg.kobzarev@skoltech.rud.tsetserukou@skoltech.ru

摘要—我们提出了操作系统状态更新，这是一个基于手势

本的操作系统，用于异构机器人团队的高级控制。与先前将手势映

译射到固定命令或单个代理动作的系统不同，GestOS语义解释

中手部手势，并根据其能力和当前状态以及支持的指令集动态分配

任务给多个机器人。该系统结合了轻量级视觉感知和大型语言模

1型（LLM）推理：手部姿态被转换为结构化的文本描述，LLM

2使用这些描述来推断意图并生成针对特定机器人的命令。一个机

1器人选择模块确保每个由手势触发的任务都能实时匹配到最适

4合的代理。这种架构实现了具有上下文感知能力的自适应控制，

1而无需用户明确指定目标或命令。通过将手势交互从识别提升为

9智能编排，GestOS支持在动态环境中与机器人系统进行可扩

0展、灵活和用户友好的协作。

2IndexTerms—手势识别，人机交互，大语言模型

:图1.GestOS系统概述。

iI.介绍

r自然直观的人机交互（HCI[1]）和人机交互最新进展改进了泛化能力[13]，但往往伴随着高计算开

（HRI[2]）是在开发与人类共同操作的智能系统中面销、实时执行支持不足以及与机器人控制功能集成有限

临的重大挑战之一。在可用的交流方式[3][4]中，手的问题。

势提供了一种富有表现力且非语言的沟通渠道，这种渠在这项工作中，我们介绍了操作系统状态，一个

道很好地契合了人类的直觉和空间推理能力[5]。然而，基于手势的操作系统，旨在实现对异构机器人平台的

尽管具有潜力，基于手势的控制系统仍然受限于其灵高级、灵活和可扩展控制。GestOS建立在大型语言模

活性、通用性和可扩展性——尤其是在动态或多代理环型(LLMs)用于语义推理的优势之上，同时通过轻量

境中[6],[7]。级、结构化的视觉输入保持实时响应能力。具体而言，

传统手势识别方法高度依赖预定义的手势词汇表GestOS使用手部姿态估计管道（MediaPipe[14]）提取

[8]–[10]和基于规则的映射[11],[12]，这限制了适应性，手势的符号描述，然后由LLM解释以推断用户意图。

并且需要重新训练以支持新的命令或上下文。视觉语与之前专注于手势分类或命令映射的系统（如

言模型（VLMs）和视觉语言动作（VLA）系统方面的GestLLM或GestureGPT）不同，GestOS通过引入

多机器人任务分配作为核心功能来推进这一范式。。当

Researchreportedinthispublicationwasfinanciallysupportedbythe

RSFgrantNo.24-41-02039.执行一个手势时，GestOS不仅推理其语义含义，还考

虑多个可用机器人当前的状态、能力和命令接口。它动别、视觉

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

GestOS：通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdfVIP