基于深度多模态检索系统设计.docx

下载文档

0
0
约2.03万字
约 22页
2024-06-12 发布于河北
举报
版权申诉
保障服务

基于深度多模态检索系统设计.docx

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE2

基于深度多模态检索系统设计

摘要

随着互联网的迅速发展，不同模态的媒体数据也在迅速增长。传统检索通过为数据赋予标签来实现检索功能，其存在新模态数据标签难以获取、查询模态受到限制等一系列问题。在此背景下，用于检索多模态数据的基于深度学习的跨模态检索技术迅速受到关注。而在跨模态检索领域中，最常见的任务是对文本和图像之间的跨模态检索。为此，本文对基于深度学习的文本-图像生成二值化查询向量跨模态检索方法进行了研究，并提出了一种基于深度学习的跨模态检索系统，本文的主要工作如下：

1．对跨模态检索相关方法进行了研究，分别考察了跨模态检索模型的构建方法、跨模态检索方法中图像特征提取方法、文本特征提取方法和跨模态三元组损失策略，并对相关技术进行了介绍。

2．本文提出了一种基于深度学习的跨模态检索系统设计方法，其使用双编码器跨模态检索模型结构，使用

ResNet18和Bert12分别为图像和文本进行特征提取，并使用Dense进行共同表示学习。在训练中，本文提出使用经过

修改的跨模态三元组损失函数进行训练，并提出了跨模态检索系统的使用流程。

3．实验中使用MSCOCO2017对本文所提方法进行训练，在使用文本作为查询向量时，其检索速率达到9.457query

/s，HitRate@N和Precision@N分别达到了69.58%、84.24%、88.68%、69.58%、68.18%和67.92%，其中N分别取1，5，

10。实验证实了该方法的有效性。关键词：跨模态检索、特征提取、深度学习、哈希

1绪论

1.1题目背景及目的

随着互联网的迅速发展，不同类型的媒体数据也在迅速增长，例如文本、图像、视频和音频等等，在这种背景下，用于检索多模态数据的跨模态检索技术正越来越受到关注。通过跨模态检索，用户可以通过提交某一种模态的数据，来查询另一种模态的对应数据。例如，用户可以通过一段音频信息，来查询数据库中符合音频描述的图片信息。从结果上看，跨模态检索主要可以分为两个类别：生成实值检索向量的跨模态检索方法与生成二值化检索向量的跨模态检索方法。前一种方法能够获得更高的精度，但是需要消耗更大的储存空间和花费更长的检索时间，而在跨模态检索对查准率的需求是低于查全率和检索速度的。在跨模态检索领域中，最常用的是对文本与图像之间跨模态检索的研究。因此在本文中，我们将探讨生成二值化检索向量的图像与文本之间的跨模态检索方法，并据此设计一个文本检索图片的深度多模态检索系统。

1.2国内外研究状况

1.2.1跨模态检索研究现状

在此之前，已经有许多学者从不同的方向提出了关于提取不同模态之间相似性的跨模态哈希方法[1]。在这些跨模态哈希算法中，一般首先使用特征抽取方式获得该模态数据的抽象化表达，然后将这些被抽取出来的特征向量映射到不同模态的公共汉明空间中，在之后的检索中，衡量不同模态在汉明空间中的距离，以确定其相似度，从而达到跨模态检索的效果。在较早的时候，学者们一般使用较浅的特征提取方法，如基于相关语义最大化(SCM)[2]、集体矩阵分解哈希(CMFH)[3]、CMSSH[4]等方法，这些方法都取得了一定的效果。近年来，随着深度学习模型的特征提取能力越来越强，越来越多学者使用深度学习模型来代替较早的特征提取网络，如[5,7,8,11,12]，等方法都取得了很好的结果。Wang.等人[5]使用AlexNet[6]作为图片特征提取网络,Cheng.等人[7]使用LSTM作为文本的特征提取网络，Lu.等人[8]使用了BERT[9]和Faster-RCNN[10]作为特征提取网络等等，这些特征提取能力越来越强的网络让跨模态检索方法的成功率上升了一个台阶。Zhan.等人[11]提出了关注不同模态内的语义信息之间的匹配，后续学者们进一步提出了使用能够抽取语义信息的特征提取[8]、使用注意力机制关注两模态之间的相关语义信息等等方法、Wei.等人[12]提出了深度语义匹配来提升跨模态检索的效果等等。大部分的Image2Text跨模态检索模型使用两个编码器分别对图片和文本进行编码，Lu.等人[13]提出了使用一个基于transformer[14]的模型来学习不同模态的信息，这种方法使用了大量预训练模型的知识，比双编码器的模型取得了更好的结果。Wang.等人[15]提出了使用GraphNeuralNetwork(GNN)来建立不同对象间的关系。

1.2.2图像特征提取网络研究现状

在跨模态检索中具有图片作为某一模态信息时，一般会使用图像特征提取网络来提取该模态信息。比较常见的

有[6,16,17,18]等等，文献[6,16]使用不同层数的ConvolutionalNeuralNetwor

基于深度多模态检索系统设计.docx 原文免费试下载