CN116433969B 一种零样本图像识别方法、系统及可存储介质（安徽大学）.docxVIP

下载本文档

0
0
约1.95万字
约 33页
2026-01-21 发布于重庆
举报

CN116433969B 一种零样本图像识别方法、系统及可存储介质（安徽大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116433969B(45)授权公告日2025.07.11

(21)申请号202310303332.6

(22)申请日2023.03.24

(65)同一申请的已公布的文献号申请公布号CN116433969A

(43)申请公布日2023.07.14

(73)专利权人安徽大学

地址230601安徽省合肥市经济开发区九

龙路111号

(72)发明人赵鹏薛惠慧姚晟李麟

(74)专利代理机构兴东知识产权代理有限公司

34148

专利代理师王伟

GO6V10/82(2022.01)GO6N3/0464(2023.01)

GO6N3/0455(2023.01)

GO6N3/084(2023.01)

GO6N3/088(2023.01)

(56)对比文件

CN109447115A,2019.03.08

CN114170475A,2022.03.11

审查员贾云杰

(51)Int.CI.

GO6V10/764(2022.01)

GO6V10/774(2022.01)权利要求书4页说明书10页附图3页

(54)发明名称

一种零样本图像识别方法、系统及可存储介质

(57)摘要

116433969BCN本发明提供了一种零样本图像识别方法、系统及可存储介质，包括：获取数据集；设计注意力机制提取可见类图像的鉴别性视觉特征；对属于同一个可见类别的所有图像做均值操作以获得该可见类的视觉原型；通过迁移可见类和不可见类之间的语义属性关系来获得不可见类的视觉原型；利用类视觉原型之间的关系构建视觉原型图，并初始化节点表示；设计编码器进行节点信息的传播和聚合以获得新的潜在空间；利用可见类图像以及标签训练模型；利用训练好的模型对不可见类图像进行预测。本发明通过注意力机制以及类别之间的语义关系获得所有类的视觉原

116433969B

S1、获取包括可见类、不可见类的数据集，其中，可见类为训练集中包含图像的类别，具有可见类的图像、类标签以及可见类的语义属性，不可见类为训练集中没有包含图像的类别，具有不可见类的语义属性，不可见类图像用作预测识别阶段

S2.设计注意力机制提取可见类图像的鉴别性视觉特征；

53、对属于同一个可见类别的所有图像做一个均值操作以获得该可见类的视觉

S4.通过迁移可见类和不可见类之间的语义属性关系来获得不可见类的视觉原

S5.利用类视觉原型之间的关系构建一个视觉原型图，并初始化节点表示；

S6、设计编码器进行节点信息的传播和聚合以获得一个新的潜在空间；

S7、利用可见类图像以及标签训练模型；

58.利用训练好的模型对不可见类图像进行预则。

CN116433969B权利要求书1/4页

1.一种零样本图像识别方法，其特征在于，包括以下步骤：

S1、获取包括可见类、不可见类的数据集，其中，可见类为训练集中包含图像的类别，具有可见类的图像、类标签以及可见类的语义属性，不可见类为训练集中没有包含图像的类别，具有不可见类的语义属性，不可见类图像用作预测识别阶段；

S2、设计注意力机制提取可见类图像的鉴别性视觉特征；

S3、对属于同一个可见类别的所有图像做一个均值操作以获得该可见类的视觉原型；S4、通过迁移可见类和不可见类之间的语义属性关系来获得不可见类的视觉原型；

S5、利用类视觉原型之间的关系构建一个视觉原型图，并初始化节点表示，在步骤S5中，通过上述操作即可获得所有类别的视觉原型，通过利用类视觉原型之间的关系构建一个视觉原型图G,每个节点代表一个类别，包含可见类以及不可见类；

具体为，视觉原型图G中边的关系由类视觉原型之间的余弦距离进行度量：

Bij=cos(Pi,Pj)

利用GloVe模型获取每个类的属性的词向量表示ai∈R300,将该类所有属性的词向量表示堆叠为一个矩阵T∈RlAl×300,|A|表示类属性的个数，再和该类语义向量相乘获得每个节点的初始化表示：

E?=ZT

其中，Zi代表第1个类的语义向量，E?代表第i个节点的初始化向量；

CN116433969B 一种零样本图像识别方法、系统及可存储介质（安徽大学）.docxVIP