- 0
- 0
- 约2.56万字
- 约 7页
- 2026-02-26 发布于北京
- 举报
GestOS:通过大型语言模型进行高级手势解
析以控制任何类型的机器人
ArtemLykovOlegKobzarevDzmitryTsetserukou
ISRLabISRLabISRLab
SkoltechSkoltechSkoltech
Moscow,RussiaMoscow,RussiaMoscow,Russia
artem.lykov@skoltech.ruoleg.kobzarev@skoltech.rud.tsetserukou@skoltech.ru
摘要—我们提出了操作系统状态更新,这是一个基于手势
本的操作系统,用于异构机器人团队的高级控制。与先前将手势映
译射到固定命令或单个代理动作的系统不同,GestOS语义解释
中手部手势,并根据其能力和当前状态以及支持的指令集动态分配
任务给多个机器人。该系统结合了轻量级视觉感知和大型语言模
1型(LLM)推理:手部姿态被转换为结构化的文本描述,LLM
v
2使用这些描述来推断意图并生成针对特定机器人的命令。一个机
1器人选择模块确保每个由手势触发的任务都能实时匹配到最适
4
4合的代理。这种架构实现了具有上下文感知能力的自适应控制,
1而无需用户明确指定目标或命令。通过将手势交互从识别提升为
.
9智能编排,GestOS支持在动态环境中与机器人系统进行可扩
0展、灵活和用户友好的协作。
5
2IndexTerms—手势识别,人机交互,大语言模型
:图1.GestOS系统概述。
v
iI.介绍
x
r自然直观的人机交互(HCI[1])和人机交互最新进展改进了泛化能力[13],但往往伴随着高计算开
a
(HRI[2])是在开发与人类共同操作的智能系统中面销、实时执行支持不足以及与机器人控制功能集成有限
临的重大挑战之一。在可用的交流方式[3][4]中,手的问题。
势提供了一种富有表现力且非语言的沟通渠道,这种渠在这项工作中,我们介绍了操作系统状态,一个
道很好地契合了人类的直觉和空间推理能力[5]。然而,基于手势的操作系统,旨在实现对异构机器人平台的
尽管具有潜力,基于手势的控制系统仍然受限于其灵高级、灵活和可扩展控制。GestOS建立在大型语言模
活性、通用性和可扩展性——尤其是在动态或多代理环型(LLMs)用于语义推理的优势之上,同时通过轻量
境中[6],[7]。级、结构化的视觉输入保持实时响应能力。具体而言,
传统手势识别方法高度依赖预定义的手势词汇表GestOS使用手部姿态估计管道(MediaPipe[14])提取
[8]–[10]和基于规则的映射[11],[12],这限制了适应性,手势的符号描述,然后由LLM解释以推断用户意图。
并且需要重新训练以支持新的命令或上下文。视觉语与之前专注于手势分类或命令映射的系统(如
言模型(VLMs)和视觉语言动作(VLA)系统方面的GestLLM或GestureGPT)不同,GestOS通过引入
多机器人任务分配作为核心功能来推进这一范式。。当
Researchreportedinthispublicationwasfinanciallysupportedbythe
RSFgrantNo.24-41-02039.执行一个手势时,GestOS不仅推理其语义含义,还考
虑多个可用机器人当前的状态、能力和命令接口。它动别、视觉
您可能关注的文档
- 测量说话人去识别系统中的软生物特征泄漏.pdf
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 哈希基线:在预训练模型时代重新思考.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf
原创力文档

文档评论(0)