基于视觉显著度及金字塔模型的图像分类.docVIP

下载本文档

6
0
约4.66千字
约 8页
2017-03-24 发布于北京
举报
版权申诉

基于视觉显著度及金字塔模型的图像分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于视觉显著度及金字塔模型的图像分类.doc

基于视觉显著度及金字塔模型的图像分类摘要：传统词袋模型仅仅是将图像表示成视觉单词的直方图，并没有考虑到物体的形状信息，也没有考虑到视觉特征的空间信息。因此将金字塔模型引入到词袋模型中，建立金字塔词袋模型，将金字塔词袋模型与金字塔直方图模型相结合，两种信息相互补充，共同来来表征图像；在分类器设计方面采用SVM进行分类。通过在 Caltech 101数据库进行实验，验证了本文方法的有效性，实验结果表明，该方法能够大幅度提高图像分类的性能。关键词：词袋模型视觉词典图像分类金字塔梯度直方图中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2015）03-0000-00 1引言近年来，图像的数量激增和图像识别、检索和分类问题带来了巨大的挑战。如何获取用户信息需求和加工精度在庞大的数据，在这一领域的最紧迫的问题。词袋模型最初是应用于文件处理，文件组合成一个关键字序列独立，通过统计关键字出现在文档频率匹配。近年来，在计算机视觉领域的研究人员成功地移植模型的思想对图像处理领域，词袋模型（BoW，bag of words）的图像库看到书面文档库，将图像作为一个文件。图像的特征提取，使用“视觉语言”，它生成的视觉词典，对每个图像发生的频度统计，完成词袋的图像描述。袋模型忽略视觉词之间的空间分布信息，使得作为二维数据的图像丢失了大量空间信息，因此本文将金字塔模型引入到词袋模型中，形成金字塔词袋模型，利用金字塔词袋模型表示图像。同时结合金字塔梯度直方图特征，构成两种具有互补特性的多级塔式结构特征：PHOG 和 PBOW，并通过线性特征融合得到最终的特征表达。不仅考虑了图像的形状特征，这一特征，又考虑了图像的局部分布的信息，一个塔的结构和特征加权的融合可以更加完整，灵活的多分辨率图像空间分解描述图像特征信息，从而提高图像分类的性能。此外，本文还结合视觉显著性图像分类，人类视觉的场景图像分类，在视觉显著性的视觉语言更吸引人们的注意力，因此影响更大的分类。在本文中，当视觉词汇直方图表示图像的图像，根据每个视觉词的权重的特征，然后根据图像分类的加权直方图。 2图像的特征提取图像特征提取与描述是进行图像分类的第一步。为了表征图像的局部特征信息和形状信息，本文采用PHOW 方法和PHOG 方法提取图像特征。这两种方法都通过图像空间多分辨率分解形成多级塔式结构表示；前者提取与描述图像形状特征信息，后者提取并描述图像局部特征信息，两者形成具有互补特性的特征表示集合。 2.1金字塔词袋模型 2.1.1图像的词袋表示词袋模型的基本原理是文件作为一个完整的词袋，忽略了单词和语法之间的秩序，字模型，每个字都是独立的包，不依赖于其他的话。词袋模型需要一个字典包含了所有有意义的词的建立，每个文档可以表示为字典中的单词直方图。词袋模型引入到图像检索领域，图像被视为一个文件，大量的和定量的图像转换成一个有限数量的视觉单词的地方特色，每个图像被表示为这些视觉词汇直方图。袋的图像分类和描述语言模型中的应用，包括特征提取和词典生成特征量化，训练分类器。如图1所示。（1）特征提取和描述。特征提取和描述的主要任务是从图像中提取的具有代表性的局部特征，图像描述。传统的方法主要是利用图像的SIFT描述符。本文主要采用密集采样模式，固定大小的窗口，按照遍历窗口的整个图像的步骤，覆盖区域的一个描述符的SIFT描述符来描述区域使用的特点。（2）词典生成。视觉词典生成的本质是适当的划分整个特征空间。将下降到特征向量的范围在区间为相同的视觉词同样可以表达。主要采用k-均值聚类SIFT特征分为若干类，每类视觉单词。所有的视觉词形视觉词典，视觉词典的大小是视觉单词的数量。（3）训练分类器。支持向量机是较常用且实现较为简单的分类器之一。其核心思想通过在特征空间中找最优分类超平面，从而对空间中的不同特征进行分类。SVM求解最优超平面问题可以等价于求解如下方程（1）约束条件为：，，任意的。其中为与超平面的法向量，为惩罚因子，为松弛向量。本文主要采用SVM进行分类，选用径向基核函数。2.1.2金字塔词袋模型传统的词袋模型忽略了图像的空间位置特征，不利于图像空间结构特征的提取。在Grauman等人的金字塔匹配（Pyramid Match Kernel ，PMK）模型基础之上， Lazebnik等人提出了空间金字塔匹配（Spatial Pyramid Matching， SPM）模型，该模型首先对局部特征量化，然后按不同的分辨率将图像切分，并将每个图像块上获得BOW特征并加权求和。空间金字塔模型以种不同的分辨率对图像进行均匀分割，在第0层，图像不被切分，其特征等价传统的BOW。在第1层，图像被切分为4块，在每块上获取特征。在第层，图像被切分为个