CN118537705B 一种使用多模态模型进行齿轮图像精准识别的方法及系统（北京航空航天大学）.docxVIP

下载本文档

0
0
约2.64万字
约 41页
2026-01-21 发布于重庆
举报

CN118537705B 一种使用多模态模型进行齿轮图像精准识别的方法及系统（北京航空航天大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN118537705B(45)授权公告日2025.07.11

(21)申请号202410762047.5

(22)申请日2024.06.13

(65)同一申请的已公布的文献号申请公布号CN118537705A

(43)申请公布日2024.08.23

(73)专利权人北京航空航天大学

GO6N3/0464(2023.01)

GO6N3/0455(2023.01)

GO6N3/0895(2023.01)

GO6N5/022(2023.01)

GO6V10/74(2022.01)

(56)对比文件

CN116662457A,2023.08.29

地址100191北京市海淀区学院路37号

(72)发明人王佐旭梁欣欣

CN117935019A,2024.04.26审查员张晓娜

(74)专利代理机构北京云科知识产权代理事务

所(特殊普通合伙)11483专利代理师王素贞

(51)Int.CI.

GO6V10/82(2022.01)

GO6V10/80(2022.01)

GO6V10/764(2022.01)权利要求书3页说明书15页附图3页

(54)发明名称

一种使用多模态模型进行齿轮图像精准识别的方法及系统

(57)摘要

CN118537705B本发明公开了一种使用多模态模型进行齿轮图像精准识别的方法及系统，该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别和；所述方法包含以下步骤：S100:数据采集和预处理；从各类开源的零件图库和/或零件标准文件中收集图像数据和文本数据，S200:动态样本对选择策略；S300:建立多模态模型；所述多模态模型包含图像处理分支和文本处理分支；图像处理分支使用ResNet模型进行图像嵌入和模型训练；文本处理分支使用LlaMa2模型获取文本描述的嵌入和深层文本学习；S400:高级融合策略；S500:模型训练和评估；本发明不仅优化了齿轮图像的识别过程，还通过集成到工业自动化系统中，提高了整体的工程效率和数据安全

CN118537705B

5201构加

502文

5100所

足要

CN118537705B权利要求书1/3页

1.一种使用多模态模型进行齿轮图像精准识别的方法，其特征在于，该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别；所述方法包含以下步骤：

步骤S100:数据采集和预处理；从各类开源的零件图库和零件标准文件中收集图像数据和文本数据，并通过规范化嵌入和数据增强方法处理所述图像数据和文本数据；

步骤S200:动态样本对选择策略；利用知识图谱内储存的知识和数据整合正负样本对，并应用hardnegativemining方法生成负样本对；

步骤S300:建立多模态模型；所述多模态模型包含图像处理分支和文本处理分支，所述图像处理分支使用ResNet模型进行图像嵌入和模型训练；所述文本处理分支使用LlaMa2模型获取文本嵌入并进行深层文本学习；

步骤S400:高级融合策略；通过向量拼接将图像的特征向量和文本的嵌入向量进行融合，形成向量对，再将向量对输入到多模态模型中进行训练；

步骤S500:模型训练和评估；采用对比学习的方法，使用对比损失和三元组损失来训练模型，实现齿轮图像识别；同时，在独立的测试集上对模型性能进行评估；

步骤S200中包括：

步骤S201:构建知识图谱；通过整合来自各类零件图库和标准文件的数据，建立知识图谱以储存关于齿轮的详细属性和工程领域的知识；

步骤S202A:生成正样本对；根据知识图谱中的数据，将正确配对的图像和文本描述生成正样本对，用于训练模型；

步骤S202B:生成负样本对；基于hardnegativemining方法，生成与正样本对相似度满足要求但标签不同的负样本对，以增强模型训练的挑战性，其中，步骤S202B与步骤S202A并列同步执行；

CN118537705B 一种使用多模态模型进行齿轮图像精准识别的方法及系统（北京航空航天大学）.docxVIP