融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用.pdfVIP

  • 27
  • 0
  • 约9.05万字
  • 约 68页
  • 2020-09-09 发布于江苏
  • 举报

融合Faster-RCNN和Wasserstein自编码器的图像检索方法研究及应用.pdf

重庆大学硕士学位论文 中文摘要 摘 要 伴随着社交网络和用户自创内容的快速发展,目前互联网已经积累了海量图像 数据,标志人们已经进入“读图时代”。如何满足人们准确、实时的图像检索需求, 已成为亟待解决的现实问题。 传统的图像检索方法因其人工标记数据、关键字匹配等局限性,难以应用于大 规模图像检索。深度神经网络以其优越的多层结构和强大的特征提取能力,在抽 取图像内容方面表现优异,在一定程度上缓解从图像底层视觉信息到人类认知语 义之间存在的“语义鸿沟”(Semantic Gap )问题。为了进一步细化检索内容、提 高检索精度,减少图像背景因素的影响,图像实例级别的检索成为当前研究热点。 本文研究基于深度学习的图像检索,并结合图像目标检测方法,用于提取图像 全局特征以及表示物体的局部特征。同时,提出了一种基于Wasserstein 距离的卷 积自编码器模型(Wasserstein Convolutional Auto-Encoder, WCAE ),用于图像特征 的降维。本文的创新点和主要内容如下: ①使用目标检测框架 Faster-RCNN 提取图像的全局特征和表示物体的局部特 征,用于图像实例级别的检索。为了提高特征抽取的准确性,本文使用检索图像 数据对特征提取网络进行权重微调。此外,在图像重排阶段,综合考虑物体类别 得分和特征相似度两个因素,提出一种基于有效区域的空间重排方法(Valid Region Spatial Re-rank, VR-SR ),以提高图像实例级别检索的准确性; ②本文提出一种基于 Wasserstein 距离的卷积自编码器模型,用于对图像特征 的降维过程。WCAE 是一种非线性降维模型,可压缩数据并获得低维编码,同时 确保信息不会丢失。由于引入卷积层,使得WCAE 在处理二维信号优势明显。此 外,本文使用区域最大池化(Region Max-Pooling, RMP )方法处理特征,以满足 WCAE 固定输入尺寸的要求。综上,WCAE 是一种通用的降维方法,采用无监督 的方式训练,不依赖有标记信息的数据,具有良好的应用前景; ③通过融合Faster-RCNN 特征提取模块以及WCAE 特征降维模块,本文实现 了一个精准且快速的图像检索模型。该模型完成从图像全局特征的粗粒度检索到 物体局部特征的细粒度检索,以及降维前后不同维度特征的检索任务。本文提出 的检索方法在Oxford5K 、Paris6K 、Oxford105K 和Paris 106K 四个公开数据上分别 达到81.3%、86.9%、76.2%和80.2%,相比于目前先进的图像检索方法,本文提出 的检索方法效果更优。 关键词:深度学习;图像检索;Wasserstein ;自编码器 I 重庆大学硕士学位论文 英文摘要 Abstract With the rapid development of social networks and user-generated content, the Internet has accumulated a large amount of image data, indicating that people have entered the “image reading era”. How to meet peoples accurate and real-time image retrieval demands has become a realistic problem to be solved. Traditional image retrieval methods are difficult to apply to large-sc

文档评论(0)

1亿VIP精品文档

相关文档