- 0
- 0
- 约2.64万字
- 约 41页
- 2026-01-21 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN118537705B(45)授权公告日2025.07.11
(21)申请号202410762047.5
(22)申请日2024.06.13
(65)同一申请的已公布的文献号申请公布号CN118537705A
(43)申请公布日2024.08.23
(73)专利权人北京航空航天大学
GO6N3/0464(2023.01)
GO6N3/0455(2023.01)
GO6N3/0895(2023.01)
GO6N5/022(2023.01)
GO6V10/74(2022.01)
(56)对比文件
CN116662457A,2023.08.29
地址100191北京市海淀区学院路37号
(72)发明人王佐旭梁欣欣
CN117935019A,2024.04.26审查员张晓娜
(74)专利代理机构北京云科知识产权代理事务
所(特殊普通合伙)11483专利代理师王素贞
(51)Int.CI.
GO6V10/82(2022.01)
GO6V10/80(2022.01)
GO6V10/764(2022.01)权利要求书3页说明书15页附图3页
(54)发明名称
一种使用多模态模型进行齿轮图像精准识别的方法及系统
(57)摘要
CN118537705B本发明公开了一种使用多模态模型进行齿轮图像精准识别的方法及系统,该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别和;所述方法包含以下步骤:S100:数据采集和预处理;从各类开源的零件图库和/或零件标准文件中收集图像数据和文本数据,S200:动态样本对选择策略;S300:建立多模态模型;所述多模态模型包含图像处理分支和文本处理分支;图像处理分支使用ResNet模型进行图像嵌入和模型训练;文本处理分支使用LlaMa2模型获取文本描述的嵌入和深层文本学习;S400:高级融合策略;S500:模型训练和评估;本发明不仅优化了齿轮图像的识别过程,还通过集成到工业自动化系统中,提高了整体的工程效率和数据安全
CN118537705B
5201构加
502文
5100所
足要
CN118537705B权利要求书1/3页
2
1.一种使用多模态模型进行齿轮图像精准识别的方法,其特征在于,该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别;所述方法包含以下步骤:
步骤S100:数据采集和预处理;从各类开源的零件图库和零件标准文件中收集图像数据和文本数据,并通过规范化嵌入和数据增强方法处理所述图像数据和文本数据;
步骤S200:动态样本对选择策略;利用知识图谱内储存的知识和数据整合正负样本对,并应用hardnegativemining方法生成负样本对;
步骤S300:建立多模态模型;所述多模态模型包含图像处理分支和文本处理分支,所述图像处理分支使用ResNet模型进行图像嵌入和模型训练;所述文本处理分支使用LlaMa2模型获取文本嵌入并进行深层文本学习;
步骤S400:高级融合策略;通过向量拼接将图像的特征向量和文本的嵌入向量进行融合,形成向量对,再将向量对输入到多模态模型中进行训练;
步骤S500:模型训练和评估;采用对比学习的方法,使用对比损失和三元组损失来训练模型,实现齿轮图像识别;同时,在独立的测试集上对模型性能进行评估;
步骤S200中包括:
步骤S201:构建知识图谱;通过整合来自各类零件图库和标准文件的数据,建立知识图谱以储存关于齿轮的详细属性和工程领域的知识;
步骤S202A:生成正样本对;根据知识图谱中的数据,将正确配对的图像和文本描述生成正样本对,用于训练模型;
步骤S202B:生成负样本对;基于hardnegativemining方法,生成与正样本对相似度满足要求但标签不同的负样本对,以增强模型训练的挑战性,其中,步骤S202B与步骤S202A并列同步执行;
步骤S202B中,具体操作步骤为:在构建
您可能关注的文档
- CN118118672B 一种视频解码的方法、装置和介质 (北京达佳互联信息技术有限公司).docx
- CN118172632B 一种基于多模态融合的无人系统三维目标检测方法和装置 (湖南大学).docx
- CN118211421B 硼中子俘获多角度照射时间系数获取方法及装置、存储介质、终端和计算机程序产品 (华硼中子科技(杭州)有限公司).docx
- CN118228960B 一种综合能源系统能量管理分配方法及系统 (北京电力交易中心有限公司).docx
- CN118248927B 一种耐高温长寿命锂离子或钠离子电池及其制备方法 (深圳市固易能科技有限责任公司).docx
- CN118313127B 基于bim的建筑钢结构变形检测方法、系统及存储介质 (内蒙古欧柯建设有限责任公司).docx
- CN118314477B 一种面向无人机红外探测的小目标实时识别方法及系统 (中国科学院国家空间科学中心).docx
- CN118334743B 一种公共场所中的人员逗留行为检测方法 (苏州罗盘网络科技股份有限公司).docx
- CN118426698B 一种闪存单元的数据存储方法、装置、介质及存储设备 (汇钜存储科技(东莞)有限公司).docx
- CN118467149B 一种任务处理方法及电子设备 (荣耀终端股份有限公司).docx
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 爱登堡电梯BT303C电气图纸.pdf
- 天津市河东区2024-2025学年七年级上学期期末考试道德与法治试卷(含答案).pdf VIP
- KH2100型薄层色谱扫描仪 用户手册.doc VIP
- 中国大学MOOC《高等数学(二)》(国防科大学)慕课 章节测验期末考试答案.docx VIP
- 四川省南充市2024-2025学年高一上学期1月期末质量检测物理试题(含答案).pdf VIP
- 2025年度民主生活会、组织生活会批评与自我批评意见(100条)供参考.docx VIP
- 第二课礼仪与教化教案.doc VIP
- 劳务费、专家咨询费用发放申领表.doc VIP
- 英文学术写作实战(北大)大学MOOC慕课 客观题答案.docx VIP
- 8款火爆的流媒体直播APP总有1个适合你.docx VIP
原创力文档

文档评论(0)