基于联合模态语义相似度的跨模态检索研究及应用.pdfVIP

基于联合模态语义相似度的跨模态检索研究及应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

重庆师范大学硕士学位论文中文摘要

基于联合模态语义相似度的跨模态检索研究及应用

摘要

近年来,随着大数据的高速发展,文本、图像以及视频等不同模态的数据也

呈现爆炸式增长。因此搭建相同语义信息下不同模态数据之间的联系,实现大规

模的跨模态匹配、融合和检索成为了当下的研究热点。跨模态检索旨在对如图像、

视频、文本等不同表现形式的数据之间进行互相检索,由于不同模态数据间存在

天然的“语义鸿沟”,因此如何对多模态数据进行高级语义抽取与对齐,实现灵

活且智能的视频-文本、图像-文本跨模态检索是目前面临的一大挑战。诸多学者已

经提出了多种基于深度神经网络的跨模态检索方法,这些方法可以通过非线性的

映射方式将不同模态的数据投影到统一的特征空间中挖掘多模态数据的语义信息,

增强多模态数据的语义关联性。但这些工作对于模态间以及模态内的相似度挖掘

得并不够深入,二者在跨模态检索领域中并没有得到很好的结合。本文致力于解

决以上问题,主要做了如下工作:

(1)提出了基于相似度增强的无监督跨模态图文哈希检索方法。首先针对文本

模态特征稀疏的问题,本文基于GCN设计了一个文本编码器,将语义相近的文本

实例联系起来,丰富文本特征。其次使用Hadamard乘积对原始的模内相似度矩阵

进行增强,提出了增强注意力融合机制对不同模态的语义相似度矩阵进行融合。针

对不同的实例的文本和图像相似度有不同注意力,且该机制会随着数据集分布的改

MS-COCONUS-WIDEFlickr-25K

变自适应的调整注意力。在、和上的大量实验表

明,本文提出的方法比其他无监督跨模态图文哈希方法能更有效地优化哈希函数。

(2)提出了基于联合模态多粒度相似度对比学习的视频文本跨模态-

检索方法。首先针对此前方法缺乏捕获细粒度交互的能力的问题,该方法设计了一

个时态多模态变换器来提取视频和文本数据的多粒度语义特征。此外,还进行了模

态内和模态间的多粒度相似性计算。其次,为了获得实例级的相似性,该方法提出了

注意力联合模态相似性(AJS)模块,它使用了注意力机制来聚合和分配不同的权重

的相似性向量矩阵中的分数。在四个视频文本基准数据集上的实验表明,该方法在/-

检索性能方面优于现有的方法,验证了所提出方法的有效性。

(3)设计并实现了一个跨模态检索系统。该系统对本文提出的两种方法进行封

装,验证所提出模型的有效性。实现了文本与图像、文本与视频之间的相互检索

等功能,能在短时间内输出并展示有效结果,为实际应用提供了借鉴。

关键词:深度学习,跨模态检索,对比学习,GCN,联合模态相似度

I

重庆师范大学硕士学位论文英文摘要

ResearchandApplicationofCross-modalRetrieval

basedonJointModalSemanticSimilarity

ABSTRACT

Inrecentyears,withtherapiddevelopmentofbigdata,differentmodalities

suchastext,images,andvideoshavealsoshownexplosivegrowth.Therefore,it

hasbecomearesearchhotspottobuildtheconnectionbetweendifferentmodal

dataunderthesamesemanticinformationandrealizelarge-scalecross-modal

matching,fusionandretrieval.Duetothenat

您可能关注的文档

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档