基于多尺度卷积神经网络图像检索算法.docVIP

下载本文档

53
0
约5.39千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于多尺度卷积神经网络图像检索算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多尺度卷积神经网络图像检索算法

基于多尺度卷积神经网络图像检索算法　　摘要摘要：图像检索一直是模式识别领域非常重要的研究方向，有着十分重要的研究意义。构建了一种多尺度的卷积神经网络结构并成功应用到报纸图像检索问题中。由于采用一种有监督的学习策略，因此需要提前对训练集中的图像进行人工标签，而人工标签的准确性会对图像检索效果产生很大影响。针对这个问题，提出用一种基于可视化特征方法来指导人工标签。通过这种方法提高人工标签的准确性，从而提高利用卷积神经网络算法进行图像检索的准确率。　　关键词关键词：图像检索；卷积神经网络；特征提取；报纸图片　　DOIDOI：10.11907/rjdk.1511342 　　中图分类号：TP312 　　文献标识码：A文章编号文章编号2016）002003803 　　0引言　　报纸一直以来都是信息传播的重要媒介之一，是一种不可或缺的信息载体。报纸内容不单单由单调的文字组成，图像也是重要成份。图像往往比文字更有说服力和感染力，因此对报纸中的图像进行检索有着非常重要的意义。　　图像检索需要用特定的方式表示图像，例如用图像的颜色、纹理等信息表示，然后用一些学习算法学习一个正确的假设空间。目前很多算法都是采用不同的特征提取算法来提取图像特征，用这些提取到的特征来表示图像信息，通过一些学习算法来训练算法模型。例如具有尺度、旋转不变性的SIFT[1]算法，在人脸识别领域被证明是非常高效的LBP[2]特征算法，还有近年非常热门的把训练好的CNN[3]模型看成一个黑匣子用来提取图像特征方法。Huang[4]等人利用LBP算法提取人脸特征，然后利用SVM去训练数据集，实验证明该算法在人脸识别中取得了很好的效果。Zhao[5]采用LBP和Gabor算法提取人脸特征，在人脸表情识别领域也取得了很好的效果。LeCun[3]等人提出了一种卷积神经网络算法（CNN），用来识别手写字母，该方法通过权值共享策略大大减少了算法参数，是一种非常成功的算法。Krizhevsk[6]等人通过改进CNN算法，在ImageNet LSVRC-2010大赛中取得了第一名的好成绩。Girshick[7]提出了R-CNN算法，通过训练好的CNN模型来提取特征并且用SVM来训练，在目标检测领域获得顶尖算法水准，之后又提出了SPPnet[8]和Fast-RCNN[9]算法，这些算法都采用了类似的思想。　　与传统算法相比，采用CNN算法提取图像特征在某种程度上来说更加高效。大量实验证明，用训练好的CNN模型提取图像特征，在图像识别领域能够取得非常优异的成绩，因此本文采用了一种多尺度的CNN模型进行报纸图像检索。　　1卷积神经网络　　卷积神经网络（convolutional neural net work），是一种深度学习理论基础上的权值共享多层神经网络，下面结合LeCun[3]给出的CNN模型LeNet-5来简单介绍CNN算法，如图1所示。　　卷积层是对输入做卷积，例如图1中C1层就是一个包含6个特征图像的卷积层，也就说对输入图像分别用6个初始化的权值模板对输入图像做卷积。相同特征图中的单元共享权值，每个卷积后要加上一个偏移权值，所以一共有156个可训练参数。　　下采样层是对特征图像做下采样，图1中S2就是对C1层的6个特征图像的下采样层。S2层有6个的特征图像，特征图中的每个单元和C1层中的邻域相连，因此一共有5880个连接和12个可训练参数。　　最后两层是和神经网络相同的全连接层，这两层采用全连接的方式，因此训练参数比较多，这两层也是CNN中参数占用最多的层。图1中的F6层就是包含84个单元的全连接层，这层的单元个数和输出层个数有关。　　2报纸中的图像检索算法　　算法流程见图2。　　2.1构建训练数据集　　对于学习算法来说，训练数据集质量直接影响到学习算法的正确性。训练数据集构建包括两个步骤：①收集图像；②人工标注。　　图像主要有两个来源：①从一些公开的网站上下载一些图片；②人工拍摄报纸图片。要对没有标注的图片进行人工标签。人工分类图片是一件非常麻烦但又非常重要的工作，可以采用一些训练好的泛化能力非常强的卷积神经网络模型来提取图像特征，通过PCA把提取到的特征维度降到三维或者二维，可视化这些特征从而指导人工分类。两种类别的图像特征可视化之后，如果发现两类特征区分明显，一定程度上说明卷积神经网络能够很好地区分这两类图像。如果某一类别图像特征可视化后分散得很开，那么卷积神经网络不能够很好地识别这一类。图3给出了一个采用ImageNet模型提取特征并可视化后的结果。　　2.2训练多尺度卷积神经网络　　多尺度卷积神经网络[10]先通过对输入图像做拉普拉斯，得到不同尺度的图像，然后对这些图像做卷积和下