CN119526422A 一种基于视触-语言-动作多模态模型的可变形物体交互操作控制方法 (同济大学).docxVIP

  • 0
  • 0
  • 约1.55万字
  • 约 22页
  • 2026-05-11 发布于山西
  • 举报

CN119526422A 一种基于视触-语言-动作多模态模型的可变形物体交互操作控制方法 (同济大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119526422A

(43)申请公布日2025.02.28

(21)申请号202411975168.4

(22)申请日2024.12.31

(71)申请人同济大学

地址200092上海市杨浦区四平路1239号

(72)发明人周艳敏谢谦李星宇王伟何斌朱忠攀

(74)专利代理机构上海科盛知识产权代理有限

公司31225

专利代理师廖程

(51)Int.Cl.

B25J9/16(2006.01)

权利要求书2页说明书7页附图2页

(54)发明名称

一种基于视触-语言-动作多模态模型的可

变形物体交互操作控制方法

(57)摘要

CN119526422A本发明涉及一种基于视触一语言一动作多模态模型的可变形物体交互操作控制方法,包括:针对可变形物体进行图像、触觉和语言数据编码,得到视觉、触觉和语言特征;将视觉特征、触觉特征和语言特征进行跨模态特征对齐处理,得到多模态融合特征;将多模态融合特征输入大模型中进行环境理解;采用“思考一决策”的规划方式迭代进行动作规划与执行;重复执行上述步骤,直至完成当前可变形物体交互操作任务。与现有技术相比,本发明提升了多模态特征对齐能力、动作规划精度和任务适配性,能够实现机器人对可变形物体的高效识别与交互,尤其在复杂环境中能有效

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档