融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用.pdfVIP

下载本文档

27
0
约9.05万字
约 68页
2020-09-09 发布于江苏
举报

融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用.pdf

重庆大学硕士学位论文中文摘要摘要伴随着社交网络和用户自创内容的快速发展，目前互联网已经积累了海量图像数据，标志人们已经进入“读图时代”。如何满足人们准确、实时的图像检索需求，已成为亟待解决的现实问题。传统的图像检索方法因其人工标记数据、关键字匹配等局限性，难以应用于大规模图像检索。深度神经网络以其优越的多层结构和强大的特征提取能力，在抽取图像内容方面表现优异，在一定程度上缓解从图像底层视觉信息到人类认知语义之间存在的“语义鸿沟”（Semantic Gap ）问题。为了进一步细化检索内容、提高检索精度，减少图像背景因素的影响，图像实例级别的检索成为当前研究热点。本文研究基于深度学习的图像检索，并结合图像目标检测方法，用于提取图像全局特征以及表示物体的局部特征。同时，提出了一种基于Wasserstein 距离的卷积自编码器模型（Wasserstein Convolutional Auto-Encoder, WCAE ），用于图像特征的降维。本文的创新点和主要内容如下： ①使用目标检测框架 Faster-RCNN 提取图像的全局特征和表示物体的局部特征，用于图像实例级别的检索。为了提高特征抽取的准确性，本文使用检索图像数据对特征提取网络进行权重微调。此外，在图像重排阶段，综合考虑物体类别得分和特征相似度两个因素，提出一种基于有效区域的空间重排方法（Valid Region Spatial Re-rank, VR-SR ），以提高图像实例级别检索的准确性； ②本文提出一种基于 Wasserstein 距离的卷积自编码器模型，用于对图像特征的降维过程。WCAE 是一种非线性降维模型，可压缩数据并获得低维编码，同时确保信息不会丢失。由于引入卷积层，使得WCAE 在处理二维信号优势明显。此外，本文使用区域最大池化（Region Max-Pooling, RMP ）方法处理特征，以满足 WCAE 固定输入尺寸的要求。综上，WCAE 是一种通用的降维方法，采用无监督的方式训练，不依赖有标记信息的数据，具有良好的应用前景； ③通过融合Faster-RCNN 特征提取模块以及WCAE 特征降维模块，本文实现了一个精准且快速的图像检索模型。该模型完成从图像全局特征的粗粒度检索到物体局部特征的细粒度检索，以及降维前后不同维度特征的检索任务。本文提出的检索方法在Oxford5K 、Paris6K 、Oxford105K 和Paris 106K 四个公开数据上分别达到81.3%、86.9%、76.2%和80.2%，相比于目前先进的图像检索方法，本文提出的检索方法效果更优。关键词：深度学习；图像检索；Wasserstein ；自编码器 I 重庆大学硕士学位论文英文摘要 Abstract With the rapid development of social networks and user-generated content, the Internet has accumulated a large amount of image data, indicating that people have entered the “image reading era”. How to meet peoples accurate and real-time image retrieval demands has become a realistic problem to be solved. Traditional image retrieval methods are difficult to apply to large-sc

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用.pdfVIP