- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
稀疏编码(Sparsecoding)在图像检索中应用
稀疏编码(Sparsecoding)在图像检索中应用
摘要:稀疏编码(Sparse Coding)作为深度学习的一个分支,在机器学习领域取得了多个方面的突破。本文将探索如何将Sparse Coding结合到图像检索的多个模块中,利用Sparse Coding的优点来提高检索的效果。
关键词:图像检索 稀疏编码 深度学习
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2013)11-0076-03
随着互联网图片数量的几何速度增长,大量无标签图片的产生和标签的不准确性,使得基于标签检索图片无法满足要求,基于内容的图像检索成为趋势。近年来,Sparse Coding作为深度学习的一个分支,在多个领域获得较好的效果,尤其是在图像识别和图像处理方面效果显著。本文将探讨如何把Sparse Coding融入到基于内容的图像检索的某些模块中,以获得较好的检索效果,并着重介绍Sparse Coding的背景和将其在图像预处理,特征提取,特征融合模块中融入的方法和意义。
1 图像检索系统流程
目前常见的基于内容的图像检索引擎流程图如图1所示。
该节主要讲述其中的图像预处理,特征提取,特征融合三个部分,这也是本文将稀疏编码的特性融入的模块。
1.1 图像预处理
图像预处理主要作用是去除图片噪声,去除相关性,加强边缘等,以提高后续特征抽取的有效性。常见的图片预处理有白化,高通滤波,低通滤波,高斯去噪等。
1.2 特征提取
特征提取在图像检索中处于核心地位,有效的特征能够表达出一幅图像所描述的某些特定内容。常见的特征有SIFT,SURF,Gabor纹理特征,Gist,颜色直方图,DAISY,ORB,HOG等。
1.3 特征融合
这里的特征融合是针对一种局部特征(描述子)来进行的,当某个描述子在不同图片上抽取出的数目不定时,有必要使得所有的图片具有统一维度的特征向量表达。常见的有效的方式是使用文本挖掘中的词袋(BOW,也称BOF)的思想。
BOW的主要思想:首先对所有图片的所有描述子进行聚类,聚类一般使用KMEAN算法,生成N个类中心,即码本。然后对于某张图片的所有描述子依次按照最近邻思想,将描述子分配到最近的类中心,并对类中心的计数加一。最后,则得到关于描述???投影到类中心的统计直方图,以该直方图作为N维的特征向量表示图片。
2 稀疏编码(Sparse Coding)
稀疏编码在人脸识别,信号去噪,图像重建,超像素,图像分割,图像分类,背景建模方面都有很好的效果。稀疏性被解释为人眼视觉层中的V1层[9],具备了人眼识别物体的基础特性。这种视觉特性使得其特别适合图像相关的处理和识别。本节将简要介绍稀疏编码的理论和算法。
2.1 系数编码的理论
2.2 求解系数
组合系数的求解算法根据0范和1范会有所不同。0范的算法典型的可以采用贪心的思想,并结合一些迭代。而1范问题构成了一个凸优化问题,凸优化问题求解有许多现成的工具,如cvx。实际中常用的算法有Basis Pursuit算法,MP算法,OMP算法,LASSO算法,LARS算法等。
2.3 学习字典
超完备字典的学习可以根据具体的任务使用不同的算法,目前常用的是KSVD算法,DKSVD算法,DDL算法,AutoEncoder算法等。KSVD重点在保证重建误差最低来构造完备字典。DKSVD算法引入了判别模型,使得训练的字典具有可区分性。而DDL算法引入了训练集之间的关联性和判别模型,使得字典更具有可区分性。图2中展示了使用AutoEncoder和稀疏性条件在MNIST数据集上学习到的字典。
MNIST数据集中包含60000张手写且不规则的0到9的图片数据,本文作者使用AutoEncoder和稀疏条件构建了稀疏表达模型,并利用Back Propagation算法不断的迭代更新学习字典。图2中的每一块是字典中的一个基元的可视化的结果。每一块只有部分是白色的区域,这正是由于稀疏性的限制,使得学习到的字典是综合了全局数据的一种局部特征,该局部特征可以被多种数据使用。从图中可以看到数字7,8,9共同的部分被学习出来了。
3 稀疏编码与图像检索
稀疏编码的明显的优点是能够重建信号,能去除噪声,抗部分丢失性,更具有表达粒度,学习字典可以是完全无监督学习,或者有监督学习。本节将充分利用这些特点,将稀疏编码引入到图像检索中的一些模块。
3.1 图像预处理阶段
传统图像预处理方法没有对图像进行分析,忽略了某些总体信息(例如是否符合图像中物体的轮廓)另外传统方法几乎无法对有小部分损坏或者遮挡的图片进行恢复。稀疏编码的去噪能力,抗部分丢失性和
文档评论(0)