基于功能的外科手术指令消歧以实现协作机器人辅助手术.pdfVIP

下载本文档

0
0
约6.44千字
约 4页
2026-02-27 发布于北京
举报

基于功能的外科手术指令消歧以实现协作机器人辅助手术.pdf

基于功能的外科手术指令消歧以实现协作机器人辅助

手术

AnaDavilaJacintoColanYasuhisaHasegawa

NagoyaUniversity,JapanNagoyaUniversity,JapanNagoyaUniversity,Japan

Abstract:有效的医患机器人协作受到口头沟通内在模糊性的影响。本文提

出了一种基于机器人的手术助手框架，该框架通过将外科医生的口头指令

与手术视野中的视觉环境关联起来进行解释和消除歧义。系统采用两级基

于可承受性的推理过程，首先使用多模态视觉语言模型分析手术场景，然后

本利用工具能力的知识库对指令进行推理。为了确保患者安全，采用了双集符

译合预测方法为机器人决策提供统计上严格的信心度量，使其能够识别并标

记模糊的命令。我们在经过精心挑选的腹腔镜胆囊切除术视频中的模糊手

中术请求数据集上评估了我们的框架，展示了60%的一般消歧率，并提出了一

1种在手术室中实现更安全的人机交互方法。

6Keywords:模糊性，大语言模型，可及性，手术机器人

11介绍

5在协作机器人辅助手术中，外科医生的口头指令经常具有实用上的歧义[1]。诸如“切割”这

2样的指令词汇上明确但语境不具体，缺乏具体的工具和目标[2]。这种请求核心组件（工具、

v动作、对象）中的歧义可能导致错误的动作并危及患者安全。当前的系统通常使用僵化的命

x令结构限制了自然交互[3,4]。我们提出了一种通过将视觉感知与基于知识的推理相结合来

a解决此歧义的框架。我们的方法使用工具可利用性的概念，即工具对物体可以执行的动作，

从视觉环境中推断出具体的可执行指令[5]。为了确保安全，我们加入了一个符合性预测层

以提供一个可量化的信心度量，使机器人知道何时应请求澄清而不是做出高风险的猜测[6]。

2提出的框架

我们的框架处理外科医生的口头指令和相应的内窥镜视频流，以生成一个验证过的、可执行

的机器人助手命令[7]。该管道由三个主要阶段组成：视觉定位、可能性推理以及用于安全验

证的共形预测，如图1所示。

2.1一级：视觉定位分析

第一阶段将语言指令植根于手术场景的视觉环境中。

1.目标识别：一个经过自适应迁移学习策略在手术数据上微调的对象检测模型处理实

时内窥镜图像，以识别和定位手术工具和解剖结构。

9thConferenceonRobotLearning(CoRL2025),Seoul,Korea.

2.视觉专家：对象检测器的输出（类别标签）被格式化为多模态视觉专家模型（VLM）

的结构化提示。该模型分析视觉证据以生成场景的结构化JSON描述，详细说明每

个识别工具和对象的存在及状态（例如。“抓取器存在并持组织”）。

2.2二级：工具增强型能力推理

此阶段使用一个推理专家，该专家通过大型语言模型实现，来消除指令的歧义。

1.手术便利知识库：我们定义了一个包含工具功能信息的知识库。这可以表示为一组

逻辑谓词，‘CanPerform(工具类型,动作,对象类型)’，如果指定的工具能够对该对

象执行动作，则返回真（例如，‘CanPerform(‘cutter’,‘cut’,‘tis

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于功能的外科手术指令消歧以实现协作机器人辅助手术.pdfVIP