稀疏编码(Sparsecoding)在图像检索中应用.docVIP

下载本文档

4
0
约4.19千字
约 9页
2018-06-23 发布于福建
举报
版权申诉

稀疏编码(Sparsecoding)在图像检索中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

稀疏编码(Sparsecoding)在图像检索中应用

稀疏编码(Sparsecoding)在图像检索中应用　　摘要：稀疏编码（Sparse Coding）作为深度学习的一个分支，在机器学习领域取得了多个方面的突破。本文将探索如何将Sparse Coding结合到图像检索的多个模块中，利用Sparse Coding的优点来提高检索的效果。　　关键词：图像检索稀疏编码深度学习　　中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2013）11-0076-03 　　随着互联网图片数量的几何速度增长，大量无标签图片的产生和标签的不准确性，使得基于标签检索图片无法满足要求，基于内容的图像检索成为趋势。近年来，Sparse Coding作为深度学习的一个分支，在多个领域获得较好的效果，尤其是在图像识别和图像处理方面效果显著。本文将探讨如何把Sparse Coding融入到基于内容的图像检索的某些模块中，以获得较好的检索效果，并着重介绍Sparse Coding的背景和将其在图像预处理，特征提取，特征融合模块中融入的方法和意义。　　1 图像检索系统流程　　目前常见的基于内容的图像检索引擎流程图如图1所示。　　该节主要讲述其中的图像预处理，特征提取，特征融合三个部分，这也是本文将稀疏编码的特性融入的模块。　　1.1 图像预处理　　图像预处理主要作用是去除图片噪声，去除相关性，加强边缘等，以提高后续特征抽取的有效性。常见的图片预处理有白化，高通滤波，低通滤波，高斯去噪等。　　1.2 特征提取　　特征提取在图像检索中处于核心地位，有效的特征能够表达出一幅图像所描述的某些特定内容。常见的特征有SIFT，SURF，Gabor纹理特征，Gist，颜色直方图，DAISY，ORB，HOG等。　　1.3 特征融合　　这里的特征融合是针对一种局部特征（描述子）来进行的，当某个描述子在不同图片上抽取出的数目不定时，有必要使得所有的图片具有统一维度的特征向量表达。常见的有效的方式是使用文本挖掘中的词袋（BOW，也称BOF）的思想。　　BOW的主要思想：首先对所有图片的所有描述子进行聚类，聚类一般使用KMEAN算法，生成N个类中心，即码本。然后对于某张图片的所有描述子依次按照最近邻思想，将描述子分配到最近的类中心，并对类中心的计数加一。最后，则得到关于描述???投影到类中心的统计直方图，以该直方图作为N维的特征向量表示图片。　　2 稀疏编码（Sparse Coding）　　稀疏编码在人脸识别，信号去噪，图像重建，超像素，图像分割，图像分类，背景建模方面都有很好的效果。稀疏性被解释为人眼视觉层中的V1层[9]，具备了人眼识别物体的基础特性。这种视觉特性使得其特别适合图像相关的处理和识别。本节将简要介绍稀疏编码的理论和算法。　　2.1 系数编码的理论　　2.2 求解系数　　组合系数的求解算法根据0范和1范会有所不同。0范的算法典型的可以采用贪心的思想，并结合一些迭代。而1范问题构成了一个凸优化问题，凸优化问题求解有许多现成的工具，如cvx。实际中常用的算法有Basis Pursuit算法，MP算法，OMP算法，LASSO算法，LARS算法等。　　2.3 学习字典　　超完备字典的学习可以根据具体的任务使用不同的算法，目前常用的是KSVD算法，DKSVD算法，DDL算法，AutoEncoder算法等。KSVD重点在保证重建误差最低来构造完备字典。DKSVD算法引入了判别模型，使得训练的字典具有可区分性。而DDL算法引入了训练集之间的关联性和判别模型，使得字典更具有可区分性。图2中展示了使用AutoEncoder和稀疏性条件在MNIST数据集上学习到的字典。　　MNIST数据集中包含60000张手写且不规则的0到9的图片数据，本文作者使用AutoEncoder和稀疏条件构建了稀疏表达模型，并利用Back Propagation算法不断的迭代更新学习字典。图2中的每一块是字典中的一个基元的可视化的结果。每一块只有部分是白色的区域，这正是由于稀疏性的限制，使得学习到的字典是综合了全局数据的一种局部特征，该局部特征可以被多种数据使用。从图中可以看到数字7，8，9共同的部分被学习出来了。　　3 稀疏编码与图像检索　　稀疏编码的明显的优点是能够重建信号，能去除噪声，抗部分丢失性，更具有表达粒度，学习字典可以是完全无监督学习，或者有监督学习。本节将充分利用这些特点，将稀疏编码引入到图像检索中的一些模块。　　3.1 图像预处理阶段　　传统图像预处理方法没有对图像进行分析，忽略了某些总体信息（例如是否符合图像中物体的轮廓）另外传统方法几乎无法对有小部分损坏或者遮挡的图片进行恢复。稀疏编码的去噪能力，抗部分丢失性和