基于BOW图像分类算法实现.docVIP

下载本文档

31
0
约3.79千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

基于BOW图像分类算法实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于BOW图像分类算法实现

基于BOW图像分类算法实现　　摘要图像分类问题应用广泛，是一个典型的模式识别问题。首先对训练图像进行网格稠密采样，然后对每一个网格采样点提取其周围区域的SIFT特征，接着使用Kmeans聚类算法对训练图像集上的SIFT特征进行聚类，生成一个视觉词汇表，从而得到基于BOW的图像表示。采用直方图交叉核训练了SVM 分类器，结果表明，该方法在图像分类问题上取得了较好的平均分类准确率。　　关键词图像分类 SIFT BOW SVM 　　中图分类号：TP391 文献标识码：A 　　图像分类问题是计算机视觉领域的重要研究方向，本身也是一个典型的模式识别问题。图像分类是指给定一副图像，自动地给图像分配一个类标。一般而言，图像的类标描述了图像的总体信息，类标信息本质上就是一种语义信息。因此，图像分类是跨越语义鸿沟，实现智能化图像管理的一个重要的途径。　　1 基于BOW的图像分类框架　　本文采用基于BOW的图像分类框架如图1所示。　　图1 基于BOW的图像分类框架　　为了能够正确地区分图像类别，需要有效地表述图像语义内容。现有的图像表示方法大致可分为3类：（1）基于图像的全局低级特征。通过提取图像的整体或分块颜色、纹理等特征，然后用一个特征矢量来表示图像内容。（2）基于图像区域分割。首先将图像先进行区域分割，并根据不同区域类型和及其关系并行地表述图像语义特性。（3）基于图像块（patch）的视觉词汇表示法。所谓图像块是指图像中相邻并且连通的像素集合。相对于以像素为单位的处理，以块为单位进行处理在计算量、推广性和集成上下文信息上等方面均有优势。　　基于图像块的方法一般可分为图像块特征提取，构建视觉词汇码书（codebook），用直方图表示图像等三个步骤。视觉词汇表示和模型建立。图像块提取有两种方法：一种是基于兴趣点的方法；另一种则是基于规则网格的方法。将得到的图像块进行归一化，再用特征描述子（本文选用SIFT descriptor）描述得到的图像块，然后通过聚类、量化，从而构建得到码书。聚类方法有很多种选择，本文选用的是Kmeans聚类方法。码书构建完以后，需要将SIFT 描述子向第二步骤中得到的码书投影，统计一幅图像中不同图像块在不同码字（code）上的词频分布，从而得到该图像的词袋表示（bag of words，BOW）。　　基于BOW对图像表示之后，进一步选用生成模型或者判别模型完成图像分类。目前常用概率生成模型有pLSA（probabilist iclatent semantic analysis）模型和LDA（ latent Dirichlet allocation）模型，其基本思想是引入一个潜在语义维，对应于图像的语义特性，通过概率生成模型，将图像的高维BOW表示映射到低维的潜在语义表示上。而判别模型最常用的方法是支持向量机（support vector machine，SVM）。　　2 算法具体流程　　2.1 主要步骤　　本文算法主要借鉴文献，分为训练阶段和测试阶段两个部分。　　（1）训练阶段。对所有训练图像进行规则网格分割，并提取每个图像块的SIFT特征。在训练图像中抽取40幅图像的所有图像块特征，进行Kmeans聚类。聚类算法的初始化采用随机选取初始值，聚类的次数上限设定为100次，如果超过100次，就采用第100次聚类得到的结果；聚类停止的准则是相邻2次聚类结果的改变，其小于某个阈值。对于视觉单词聚类为V（文中取V=200）个类别，得到视觉词汇码书，然后按照这个码本对训练图像库中的所有图像提取其视觉单词，建立图像的金字塔特征。并通过训练得到SVM分类器。　　（2）测试阶段。对输入的测试图像提取其图像块特征，并根据训练部分得到的聚类码书，进而得到图像的金字塔表示；然后使用金字塔匹配核的SVM分类器对测试图像进行分类，得到最终的实验结果。　　2.2 视觉词汇表的生成　　文中首先用DOG算子来探测图像中的感兴趣区域，然后用SIFT描述子来描述这些感兴趣区域，最后对这些区域的SIFT特征进行聚类来生成视觉词汇。视觉词汇表的具体生成过程如下：（1）对训练图像进行网格稠密采样，从而得到相应的网格采样点。本文使用的规则网格大小是16?？6，网格采样间隔为8像素；（2）对每一个网格采样点提取其周围区域的SIFT特征来描述该网格采样点。在本文中使用网格采样点周围16?？6的区域来计算SIFT特征，SIFT特征用该区域梯度方向直方图表示，是一个128维向量；（3）使用Kmeans聚类算法对训练图像集上的所有网格采样点的SIFT特征进行聚类，每个聚类中心对应一个视觉词汇，从而生成一个由V个视觉词汇构成的视觉词汇表。　　2.3 空间金字塔特征　　假设视觉词汇的数目是，为图