CN119293271A 一种基于图卷积网络融合的跨模态哈希检索方法（北京计算机技术及应用研究所）.docxVIP

下载本文档

0
0
约1.84万字
约 26页
2026-01-26 发布于重庆
举报

CN119293271A 一种基于图卷积网络融合的跨模态哈希检索方法（北京计算机技术及应用研究所）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119293271A(43)申请公布日2025.01.10

(21)申请号202411402044.7GO6N3/09(2023.01)

(22)申请日2024.10.09

(71)申请人北京计算机技术及应用研究所地址100854北京市海淀区永定路51号

(72)发明人党张敏喻崇仁陕振徐晗殷双飞马连志

(74)专利代理机构中国兵器工业集团公司专利中心11011

专利代理师王雪芬

(51)Int.CI.

GO6F

GO6N

16/432(2019.01)

16/45(2019.01)

3/0464(2023.01)

3/0455(2023.01)

3/084(2023.01)

权利要求书4页说明书9页附图1页

(54)发明名称

一种基于图卷积网络融合的跨模态哈希检索方法

(57)摘要

CN119293271A本发明涉及一种基于图卷积网络融合的跨模态哈希检索方法，属于多媒体检索技术领域。本发明中，构建基于图卷积神经网络的模态融合模块，学习模态共享表示，这些共享表示将联合成对损失以及模态内和模态间鉴别损失去减少模态间的异质性，充分学习模态间的相似性关系，增强了不同模态数据间的特征对齐；采用成对损失、三元组损失和量化损失函数构建有效的学习目标即损失函数，捕捉本方法在不同模态间的高阶语义相似性，指导哈希本发明方法的学

CN119293271A

CN119293271A权利要求书1/4页

1.一种基于图卷积网络融合的跨模态哈希检索方法，其特征在于，包括以下步骤：

(1)提取图像模态的原始语义特征；其中，对于图像模态，使用预训练的模型ResNet50从原始图像中提取图像原始语义特征，即图像模态特征，定义经由ResNet50所提取的图像模态特征为F;

(2)提取文本模态的原始语义特征；其中，对于文本模态，首先将文本样本转化为词袋向量；接着，将词袋向量表示的文本信息输入到多层感知机中提取文本样本中的原始语义特征，即文本模态特征，定义所提取的文本模态特征为F;

(3)获取图像模态和文本模态的统一嵌入特征；分别使用多层感知机的三个全连接层对所提取的图像模态特征F、和文本模态特征F进行进一步的特征映射，获得F、和F分别对应的统一的嵌入特征表示Z和Z;

(4)基于Z和Z,为训练样本中的图像和文本模态分别生成二值哈希码即二进制哈希码，并为测试样本中的图像和文本模态分别生成二值哈希码；

(5)引入基于图卷积神经网络实现的融合模块来学习图像和文本模态共享表示，具体融合过程如下：首先，使用邻接矩阵A来引导图卷积神经网络聚合每个节点的信息，学习更具鉴别性的特征表示；接着，将图像模态特征F、和文本模态特征F进行拼接获得模态共享表示R=[F;F];最后，构建图结构(R,A),并得到总相似性矩阵U、基于标签的相似度矩阵S、图卷积神经网络的输出Zs;

(6)基于步骤(5)构建损失函数，其中采用三个损失指导学习过程，分别是三元组损失，成对损失和量化损失；

(7)基于步骤(6)计算对图卷积神经网络进行训练的整个过程中总的损失函数，基于损失函数该对图卷积神经网络进行训练，并在训练过程中，使用反向传播来迭代更新图卷积神经网络的参数即所述损失函数的参数，直至图卷积神经网络收敛，此时执行下一步；

(8)基于步骤(4)生成的训练样本和测试样本的二进制哈希码计算文本或图像模态的被检索样本到图像或文本模态检索样本中的汉明距离，根据汉明距离的大小进行排序，然后，在文本或图像模态检索样本中取前k个最小距离对应样本作为检索结果，即可在不同模态之间得到语义相近的检索结果。

2.如权利要求1所述的方法，其特征在于，步骤(1)中，ResNet50通过一系列卷积和池化操作，逐步从原始图像中提取出深层次的特征信息，得到2048维图像特征向量，将所提取的图像特征向量输入到包含512个节点的全连接层中，获得512维的图像特征向量即图像模态特征，这512维的图像特征向量作为图像的高维特征表示，用于后续的哈希函数的学习。

3.如权利要求2所述的方法，其特征在于，步骤(2)中，将词袋向量表示的文本信息输入到包含三个全连接层

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119293271A 一种基于图卷积网络融合的跨模态哈希检索方法（北京计算机技术及应用研究所）.docxVIP