CN119526405A 基于视觉语言动作多模态对齐策略的机器人抓取检测方法（江苏科技大学）.docxVIP

下载本文档

0
0
约1.47万字
约 20页
2026-05-11 发布于山西
举报

CN119526405A 基于视觉语言动作多模态对齐策略的机器人抓取检测方法（江苏科技大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119526405A

(43)申请公布日2025.02.28

(21)申请号202411757782.3

(22)申请日2024.12.03

(71)申请人江苏科技大学

地址212000江苏省镇江市梦溪路2号

(72)发明人张强朱建伟孙雪莹齐亮叶树霞张永韡袁陈伟

(74)专利代理机构南京经纬专利商标代理有限

公司32200

专利代理师徐澍

(51)Int.Cl.

B25J9/16(2006.01)

权利要求书2页说明书7页附图2页

(54)发明名称

基于视觉语言动作多模态对齐策略的机器

人抓取检测方法

(57)摘要

CN119526405A本发明属于机器人抓取控制技术领域，公开了一种基于视觉语言动作多模态对齐策略的机器人抓取检测方法，包括如下步骤：将自然语言指令输入大语言模型，生成物体类别、任务、抓取动作三类描述及注意力掩码；通过文本编码器对三类数据进行通道注意力优化，得到文本编码特征；输入物体的三维点云数据，生成点云编码特征；将点云数据输入候选抓取姿势编码模块，提取抓取姿势编码特征；通过交叉注意力模块实现多模态特征融合，得到融合特征；将融合特征输入策略模块，得到每个候选抓取动作的评估值；根据评估值，对所有候选抓取动作进行排序。本发明通过点云

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119526405A 基于视觉语言动作多模态对齐策略的机器人抓取检测方法（江苏科技大学）.docxVIP