- 0
- 0
- 约1.84万字
- 约 26页
- 2026-01-26 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119293271A(43)申请公布日2025.01.10
(21)申请号202411402044.7GO6N3/09(2023.01)
(22)申请日2024.10.09
(71)申请人北京计算机技术及应用研究所地址100854北京市海淀区永定路51号
(72)发明人党张敏喻崇仁陕振徐晗殷双飞马连志
(74)专利代理机构中国兵器工业集团公司专利中心11011
专利代理师王雪芬
(51)Int.CI.
GO6F
GO6F
GO6N
GO6N
GO6N
16/432(2019.01)
16/45(2019.01)
3/0464(2023.01)
3/0455(2023.01)
3/084(2023.01)
权利要求书4页说明书9页附图1页
(54)发明名称
一种基于图卷积网络融合的跨模态哈希检索方法
(57)摘要
CN119293271A本发明涉及一种基于图卷积网络融合的跨模态哈希检索方法,属于多媒体检索技术领域。本发明中,构建基于图卷积神经网络的模态融合模块,学习模态共享表示,这些共享表示将联合成对损失以及模态内和模态间鉴别损失去减少模态间的异质性,充分学习模态间的相似性关系,增强了不同模态数据间的特征对齐;采用成对损失、三元组损失和量化损失函数构建有效的学习目标即损失函数,捕捉本方法在不同模态间的高阶语义相似性,指导哈希本发明方法的学
CN119293271A
CN119293271A权利要求书1/4页
2
1.一种基于图卷积网络融合的跨模态哈希检索方法,其特征在于,包括以下步骤:
(1)提取图像模态的原始语义特征;其中,对于图像模态,使用预训练的模型ResNet50从原始图像中提取图像原始语义特征,即图像模态特征,定义经由ResNet50所提取的图像模态特征为F;
(2)提取文本模态的原始语义特征;其中,对于文本模态,首先将文本样本转化为词袋向量;接着,将词袋向量表示的文本信息输入到多层感知机中提取文本样本中的原始语义特征,即文本模态特征,定义所提取的文本模态特征为F;
(3)获取图像模态和文本模态的统一嵌入特征;分别使用多层感知机的三个全连接层对所提取的图像模态特征F、和文本模态特征F进行进一步的特征映射,获得F、和F分别对应的统一的嵌入特征表示Z和Z;
(4)基于Z和Z,为训练样本中的图像和文本模态分别生成二值哈希码即二进制哈希码,并为测试样本中的图像和文本模态分别生成二值哈希码;
(5)引入基于图卷积神经网络实现的融合模块来学习图像和文本模态共享表示,具体融合过程如下:首先,使用邻接矩阵A来引导图卷积神经网络聚合每个节点的信息,学习更具鉴别性的特征表示;接着,将图像模态特征F、和文本模态特征F进行拼接获得模态共享表示R=[F;F];最后,构建图结构(R,A),并得到总相似性矩阵U、基于标签的相似度矩阵S、图卷积神经网络的输出Zs;
(6)基于步骤(5)构建损失函数,其中采用三个损失指导学习过程,分别是三元组损失,成对损失和量化损失;
(7)基于步骤(6)计算对图卷积神经网络进行训练的整个过程中总的损失函数,基于损失函数该对图卷积神经网络进行训练,并在训练过程中,使用反向传播来迭代更新图卷积神经网络的参数即所述损失函数的参数,直至图卷积神经网络收敛,此时执行下一步;
(8)基于步骤(4)生成的训练样本和测试样本的二进制哈希码计算文本或图像模态的被检索样本到图像或文本模态检索样本中的汉明距离,根据汉明距离的大小进行排序,然后,在文本或图像模态检索样本中取前k个最小距离对应样本作为检索结果,即可在不同模态之间得到语义相近的检索结果。
2.如权利要求1所述的方法,其特征在于,步骤(1)中,ResNet50通过一系列卷积和池化操作,逐步从原始图像中提取出深层次的特征信息,得到2048维图像特征向量,将所提取的图像特征向量输入到包含512个节点的全连接层中,获得512维的图像特征向量即图像模态特征,这512维的图像特征向量作为图像的高维特征表示,用于后续的哈希函数的学习。
3.如权利要求2所述的方法,其特征在于,步骤(2)中,将词袋向量表示的文本信息输入到包含三个全连接层
您可能关注的文档
- CN119296516A 基于rag的领域化语音识别方法及系统 (中科南京人工智能创新研究院).docx
- CN119296378A 一种船舶用的智能航行系统及方法 (广东海洋大学).docx
- CN119296376A 一种基于多模态物联感知的公路风险模拟避让系统及方法 (四川云控交通科技有限责任公司).docx
- CN119296322A 基于全息图的路网安全预警方法、装置及存储介质 (深圳市拓必达科技有限公司).docx
- CN119296239A 基于视频远程监控的防盗监测预警方法 (广州市伟粤通讯设备有限公司).docx
- CN119295886A 基于多尺度特征融合的X-ray图像违禁品检测方法 (齐鲁工业大学(山东省科学院)).docx
- CN119295883A 一种基于多模态感知融合的自主机器人决策系统及其方法 (龙岩丽泰信息技术有限公司).docx
- CN119295827A 通过深度学习增强缺陷检测效率的无损探伤方法 (苏州天顺复合材料科技有限公司).docx
- CN119295660A 一种深度学习和计算机视觉的桥梁结构裂缝位置识别方法 (广州航海学院).docx
- CN119295638A 基于高斯泼溅的图像渲染方法、装置、设备、存储介质及程序产品 (北京大学深圳研究生院).docx
- 2025-2026学年教科版(新教材)小学音乐一年级第二学期教学计划及进度表.docx
- 2025-2026学年冀少版小学音乐四年级下册教学计划及进度表.docx
- 2025-2026学年辽海版(新教材)小学音乐一年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版(新教材)小学数学二年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版(新教材)小学数学三年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版小学数学五年级下册教学计划及进度表.docx
- 【图片】25-26学年1月27日八上南京联合体【栖霞、雨花、江宁、浦口、溧水区】期末卷【含评分标准】.doc
- 1.1细胞生活的环境 课件 高二上学期选择性必修1生物人教版(2019).pptx
- 【图片】25-26学年1月27日九上南京联合体【栖霞、雨花、江宁、浦口、溧水区】期末卷【含评分标准与学生A3答题卡】.pdf
- 3.1《认识晶体》课件-高二上学期化学鲁科版选择性必修2.pptx
原创力文档

文档评论(0)