基于注意力机制和多向主成分分析的图像检索研究.pdfVIP

下载本文档

52
0
约7.75万字
约 71页
2020-11-11 发布于江苏
举报

基于注意力机制和多向主成分分析的图像检索研究.pdf

基于注意力机制和多向主成分分析的图像检索研究摘要图像检索是指将待查询图像与候选图像进行相似度比较，找出与查询图像相似或相关的图像。随着图像数据的海量增长和深度学习的快速发展，基于内容的图像检索吸引了越来越多的研究者。一方面，该课题对计算机视觉领域的其他任务（如行人重识别、图像分类等）有积极的促进作用，另一方面，该课题在实际应用中（如电商平台通过图像查询商品，安防等）也发挥了重要的作用。近年来，基于深度学习的图像检索方法取得了良好的效果。然而，图像检索任务仍然面临一些问题，如图像中存在干扰信息和图像特征维度过高等。针对以上问题，本文提出了基于注意力机制的特征加权方法和基于多向主成分分析的特征降维方法。同时，本文通过充分的实验验证了这些方法的有效性。本文的内容总结如下：（1）提出基于注意力机制的图像检索方法。因为图像中不可避免地包含一些干扰物体，所以使用卷积网络会将这些干扰信息编码进图像的全局描述符，进而影响检索准确率。为了减少这些干扰信息的影响，我们设计了基于注意力机制的特征加权模块，为图像生成具有辨识度的全局特征。该模块包含两个部分，第一部分作用于空间维度，首先评估区域特征的重要性，为每一个区域特征生成对应的分数，随后剔除那些得分较低的特征并为保留下的特征重新赋予权重。第二部分作用于通道维度，通过调整特征图的权重分布，使提取的特征更具辨识度。此外，我们还在测试阶段使用多尺度的特征，使得检索准确率进一步提高。我们在经典的图像检索数据集上进行了实验，结果表明本文提出的方法可以有效提高检索准确度。（2 ）提出基于多向主成分分析的图像检索方法。我们通常将图像通过卷积网络生成的特征图看作局部特征的集合。直接级联局部特征作为图像的描述符存在明显的不足。一方面，直接拼接后的描述符维度过高，对计算机的运算能力和内存容量都提出了较高的要求。另一方面，张量数据本身包含一定的结构信息，直接拼接将破坏这些信息。针对上述问题，本文提出了可微分的多向主成分分析模块。在该模块中，我们首先利用图像的特征图（Feature Maps ）得到固定尺寸的 I 基于注意力机制和多向主成分分析的图像检索研究区域特征，接着区域特征通过MPCA （Multilinear Principal Component Analysis ）层进行降维得到图像的全局描述符。该模块直接作用于张量数据，通过矩阵投影的方式将原始张量数据从高维空间映射到低维空间，避免了张量数据拼接造成的结构信息破坏。不同于传统的MPCA ，该模块被设计为可微分的，可以嵌入现有的卷积网络。因此，该模块能够利用图像的标注信息聚集相同类别的数据，分隔不同类别的数据。我们在相关数据集上进行实验，验证了该方法的有效性。关键词：图像检索；卷积神经网络；注意力机制；特征加权；多向主成分分析 II Research on Image Retrieval Based on Attention Mechanism and Multilinear Principal Component Analysis Abstract Image retrieval is to find images that are similar or related to the query from the candidates by comparing the similarity between images. With the massive growth of image data and the rapid development of deep learning, content-based image retrieval has attracted more and more researchers. On the one hand, this topic has a positive role in promoting

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于注意力机制和多向主成分分析的图像检索研究.pdfVIP