- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BOW图像分类算法实现
基于BOW图像分类算法实现
摘 要 图像分类问题应用广泛,是一个典型的模式识别问题。首先对训练图像进行网格稠密采样,然后对每一个网格采样点提取其周围区域的SIFT特征,接着使用Kmeans聚类算法对训练图像集上的SIFT特征进行聚类,生成一个视觉词汇表,从而得到基于BOW的图像表示。采用直方图交叉核训练了SVM 分类器,结果表明,该方法在图像分类问题上取得了较好的平均分类准确率。
关键词 图像分类 SIFT BOW SVM
中图分类号:TP391 文献标识码:A
图像分类问题是计算机视觉领域的重要研究方向,本身也是一个典型的模式识别问题。图像分类是指给定一副图像,自动地给图像分配一个类标。一般而言,图像的类标描述了图像的总体信息,类标信息本质上就是一种语义信息。因此,图像分类是跨越语义鸿沟,实现智能化图像管理的一个重要的途径。
1 基于BOW的图像分类框架
本文采用基于BOW的图像分类框架如图1所示。
图1 基于BOW的图像分类框架
为了能够正确地区分图像类别,需要有效地表述图像语义内容。现有的图像表示方法大致可分为3类:(1)基于图像的全局低级特征。通过提取图像的整体或分块颜色、纹理等特征,然后用一个特征矢量来表示图像内容。(2)基于图像区域分割。首先将图像先进行区域分割,并根据不同区域类型和及其关系并行地表述图像语义特性。(3)基于图像块(patch)的视觉词汇表示法。所谓图像块是指图像中相邻并且连通的像素集合。相对于以像素为单位的处理,以块为单位进行处理在计算量、推广性和集成上下文信息上等方面均有优势。
基于图像块的方法一般可分为图像块特征提取,构建视觉词汇码书(codebook),用直方图表示图像等三个步骤。视觉词汇表示和模型建立。图像块提取有两种方法:一种是基于兴趣点的方法;另一种则是基于规则网格的方法。将得到的图像块进行归一化,再用特征描述子(本文选用SIFT descriptor)描述得到的图像块,然后通过聚类、量化,从而构建得到码书。聚类方法有很多种选择,本文选用的是Kmeans聚类方法。码书构建完以后,需要将SIFT 描述子向第二步骤中得到的码书投影,统计一幅图像中不同图像块在不同码字(code)上的词频分布,从而得到该图像的词袋表示(bag of words,BOW)。
基于BOW对图像表示之后,进一步选用生成模型或者判别模型完成图像分类。目前常用概率生成模型有pLSA(probabilist iclatent semantic analysis)模型和LDA( latent Dirichlet allocation)模型,其基本思想是引入一个潜在语义维,对应于图像的语义特性,通过概率生成模型,将图像的高维BOW表示映射到低维的潜在语义表示上。而判别模型最常用的方法是支持向量机(support vector machine,SVM)。
2 算法具体流程
2.1 主要步骤
本文算法主要借鉴文献,分为训练阶段和测试阶段两个部分。
(1)训练阶段。对所有训练图像进行规则网格分割,并提取每个图像块的SIFT特征。在训练图像中抽取40幅图像的所有图像块特征,进行Kmeans聚类。聚类算法的初始化采用随机选取初始值,聚类的次数上限设定为100次,如果超过100次, 就采用第100次聚类得到的结果;聚类停止的准则是相邻2次聚类结果的改变,其小于某个阈值。对于视觉单词聚类为V(文中取V=200)个类别,得到视觉词汇码书,然后按照这个码本对训练图像库中的所有图像提取其视觉单词,建立图像的金字塔特征。并通过训练得到SVM分类器。
(2)测试阶段。对输入的测试图像提取其图像块特征,并根据训练部分得到的聚类码书,进而得到图像的金字塔表示;然后使用金字塔匹配核的SVM分类器对测试图像进行分类,得到最终的实验结果。
2.2 视觉词汇表的生成
文中首先用DOG算子来探测图像中的感兴趣区域,然后用SIFT描述子来描述这些感兴趣区域,最后对这些区域的SIFT特征进行聚类来生成视觉词汇。视觉词汇表的具体生成过程如下:(1)对训练图像进行网格稠密采样,从而得到相应的网格采样点。本文使用的规则网格大小是16??6,网格采样间隔为8像素;(2)对每一个网格采样点提取其周围区域的SIFT特征来描述该网格采样点。在本文中使用网格采样点周围16??6的区域来计算SIFT特征,SIFT特征用该区域梯度方向直方图表示,是一个128维向量;(3)使用Kmeans聚类算法对训练图像集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心对应一个视觉词汇,从而生成一个由V个视觉词汇构成的视觉词汇表。
2.3 空间金字塔特征
假设视觉词汇的数目是,为图
您可能关注的文档
最近下载
- 人工挖孔桩工程量计算格式表格.xls VIP
- 北京师范大学天津静海实验学校2024-2025学年高二上学期第一次月考化学试卷.docx VIP
- 室内装饰装修施工组织设计.pdf VIP
- 人教A版(2019)必修第一册2.3二次函数与一元二次方程、不等式 同步练习(Word版含解析).docx VIP
- 5000tpd燃烧器技术介绍.pdf VIP
- 2023年山西云时代技术有限公司校园招聘考试笔试题库及答案解析.docx VIP
- 小学低年级传统文化故事教学策略研究与实践教学研究课题报告.docx
- 第4课 运动负荷的监控+课件+ 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- 中级职称评审-人工智能工程-专业技术报告.docx VIP
- 食品生物技术概论 教学课件 作者 廖威 主编 谭强 主审 第二章 基因工程在食品工业中的应用.ppt VIP
文档评论(0)