基于BOW图像分类算法实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BOW图像分类算法实现

基于BOW图像分类算法实现   摘 要 图像分类问题应用广泛,是一个典型的模式识别问题。首先对训练图像进行网格稠密采样,然后对每一个网格采样点提取其周围区域的SIFT特征,接着使用Kmeans聚类算法对训练图像集上的SIFT特征进行聚类,生成一个视觉词汇表,从而得到基于BOW的图像表示。采用直方图交叉核训练了SVM 分类器,结果表明,该方法在图像分类问题上取得了较好的平均分类准确率。   关键词 图像分类 SIFT BOW SVM   中图分类号:TP391 文献标识码:A   图像分类问题是计算机视觉领域的重要研究方向,本身也是一个典型的模式识别问题。图像分类是指给定一副图像,自动地给图像分配一个类标。一般而言,图像的类标描述了图像的总体信息,类标信息本质上就是一种语义信息。因此,图像分类是跨越语义鸿沟,实现智能化图像管理的一个重要的途径。   1 基于BOW的图像分类框架   本文采用基于BOW的图像分类框架如图1所示。   图1 基于BOW的图像分类框架   为了能够正确地区分图像类别,需要有效地表述图像语义内容。现有的图像表示方法大致可分为3类:(1)基于图像的全局低级特征。通过提取图像的整体或分块颜色、纹理等特征,然后用一个特征矢量来表示图像内容。(2)基于图像区域分割。首先将图像先进行区域分割,并根据不同区域类型和及其关系并行地表述图像语义特性。(3)基于图像块(patch)的视觉词汇表示法。所谓图像块是指图像中相邻并且连通的像素集合。相对于以像素为单位的处理,以块为单位进行处理在计算量、推广性和集成上下文信息上等方面均有优势。   基于图像块的方法一般可分为图像块特征提取,构建视觉词汇码书(codebook),用直方图表示图像等三个步骤。视觉词汇表示和模型建立。图像块提取有两种方法:一种是基于兴趣点的方法;另一种则是基于规则网格的方法。将得到的图像块进行归一化,再用特征描述子(本文选用SIFT descriptor)描述得到的图像块,然后通过聚类、量化,从而构建得到码书。聚类方法有很多种选择,本文选用的是Kmeans聚类方法。码书构建完以后,需要将SIFT 描述子向第二步骤中得到的码书投影,统计一幅图像中不同图像块在不同码字(code)上的词频分布,从而得到该图像的词袋表示(bag of words,BOW)。   基于BOW对图像表示之后,进一步选用生成模型或者判别模型完成图像分类。目前常用概率生成模型有pLSA(probabilist iclatent semantic analysis)模型和LDA( latent Dirichlet allocation)模型,其基本思想是引入一个潜在语义维,对应于图像的语义特性,通过概率生成模型,将图像的高维BOW表示映射到低维的潜在语义表示上。而判别模型最常用的方法是支持向量机(support vector machine,SVM)。   2 算法具体流程   2.1 主要步骤   本文算法主要借鉴文献,分为训练阶段和测试阶段两个部分。   (1)训练阶段。对所有训练图像进行规则网格分割,并提取每个图像块的SIFT特征。在训练图像中抽取40幅图像的所有图像块特征,进行Kmeans聚类。聚类算法的初始化采用随机选取初始值,聚类的次数上限设定为100次,如果超过100次, 就采用第100次聚类得到的结果;聚类停止的准则是相邻2次聚类结果的改变,其小于某个阈值。对于视觉单词聚类为V(文中取V=200)个类别,得到视觉词汇码书,然后按照这个码本对训练图像库中的所有图像提取其视觉单词,建立图像的金字塔特征。并通过训练得到SVM分类器。   (2)测试阶段。对输入的测试图像提取其图像块特征,并根据训练部分得到的聚类码书,进而得到图像的金字塔表示;然后使用金字塔匹配核的SVM分类器对测试图像进行分类,得到最终的实验结果。   2.2 视觉词汇表的生成   文中首先用DOG算子来探测图像中的感兴趣区域,然后用SIFT描述子来描述这些感兴趣区域,最后对这些区域的SIFT特征进行聚类来生成视觉词汇。视觉词汇表的具体生成过程如下:(1)对训练图像进行网格稠密采样,从而得到相应的网格采样点。本文使用的规则网格大小是16??6,网格采样间隔为8像素;(2)对每一个网格采样点提取其周围区域的SIFT特征来描述该网格采样点。在本文中使用网格采样点周围16??6的区域来计算SIFT特征,SIFT特征用该区域梯度方向直方图表示,是一个128维向量;(3)使用Kmeans聚类算法对训练图像集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心对应一个视觉词汇,从而生成一个由V个视觉词汇构成的视觉词汇表。   2.3 空间金字塔特征   假设视觉词汇的数目是,为图

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档