图像分类学习笔记-词袋模型和空间金字塔匹配..docx

下载文档

95
0
约 8页
2017-01-10 发布于重庆
举报
版权申诉
保障服务

图像分类学习笔记-词袋模型和空间金字塔匹配..docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

图像分类学习笔记-词袋模型和空间金字塔匹配.

图像分类学习笔记：词袋模型和空间金字塔匹配Image Classification Framework: Bag-of-Words Spatial Pyramid Matching一、基础：词袋模型（Bag of Words）Bag-of-Words（词袋、词包）模型，或称Bag of Features模型，源于文本分类技术。在信息检索中，假定对于一个文本，忽略其词序和语法、句法。将其仅仅看作是一个词的集合，每个词都是彼此概率独立的。这样可以通过文档中单词出现的频率来对文档进行描述与表达。Csurka等[1] 于2004年将其引入计算机视觉领域。其核心思想在于，图像可以视为一种文档对象，图像中不同的局部区域或其特征可看作构成图像的词汇，其中相近的区域或其特征可以视作为一个词。这样，可以把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。理论对应关系如下：用词袋模型生成对一张图像的描述向量的处理步骤：1、局部特征提取通过兴趣点检测、密集采样或随机采集，结合图割区域、显著区域等方式获得图像各处的局部特征。常用的是SIFT特征和Dense SIFT特征。 2、构建视觉词典在整个训练集上提取局部特征后，使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心可以看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看作一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，词典中所含词的个数反映了词典的大小。3、特征量化编码图像中的每个特征都将被映射到视觉词典的某个词上，然后统计每个视觉词在一张图像上的出现次数，即可将该图像描述为一个维数固定的直方图向量。4、训练分类模型并预测用于图像分类时，如上对训练集提取Bag-of-Features特征，在某种监督学习（如SVM）的策略下，对训练集的Bag-of-Features特征向量进行训练，获得对象或场景的分类模型；在分类模型下，对该特征进行预测，从而实现对待测图像的分类。（示意图片来源于网络）词袋模型中一些需要商榷的实现问题：1、使用k-means聚类，除了其K和初始聚类中心选择的问题外，对于海量数据，输入矩阵的巨大将使得内存溢出及效率低下。训练集变化时重新聚类的代价也很高。2、字典大小的选择也是问题，字典过大，单词缺乏一般性，对噪声敏感，计算量大，关键是图象投影后的维数高；字典太小，单词区分性能差，对相似的目标特征无法表示。3、相似性测度函数用来将图象特征分类到单词本的对应单词上，其涉及线型核，塌方距离测度核，直方图交叉核等的选择。4、将图像表示成一个无序局部特征集的特征包方法，丢掉了所有的关于空间特征布局的信息，在描述性上具有一定的有限性。为此， Lazebnik[2]提出了基于空间金字塔的Bag-of-Features，下面部分中将会详述。此外，基于词袋模型的改进方法还有很多，见下一部分。二、综述：基于词袋模型的图像分类方法框架词袋模型提出后，图像分类领域大量的研究工作开始集中于该模型的相关研究，并逐渐形成了主要由以下四部分组成的图像分类方法框架：1、底层特征提取（SIFT、Dense SIFT、多特征）2、特征编码（硬量化编码、稀疏编码、fisher vector等）3、特征汇聚（空间金字塔SPM）4、分类器分类（SVM、Adaboost、Na?ve Bayes等）其中第三部分的基础是Lazebnik等人[2] 在CVPR 2006上提出的空间金字塔（SPM）方法，在当前基于词袋模型的分类框架中几乎已成为标准步骤。该论文也是完整实现了以上框架的经典文章。后面有进一步的介绍。（用于图像分类的另一主流框架：自从2006年Hinton教授于Science上发表文章，开启了深度学习在学术界和工业界的浪潮，深度学习框架也被大量应用于图像分类领域，并取得了更加优异的表现。此处不涉及。）e.g, SIFT, HOGVQ CodingAverage Pooling (obtain histogram)SVMLocal GradientsPooling（示意图来自于Kai Yu，CVPR2012 tutorial）1、底层特征提取（describing）词袋模型的基础就是图像局部特征提取，底层特征是图像分类检测框架的第一步。在此方面的改进主要包括局部特征描述方法的设计和采集方式的优化。目前常用的是SIFT特征和Dense SIFT特征。特征采集方式主要包括兴趣点检测、密集采样或随机采集等。兴趣点检测通过某种准则选取一些像素点、角点等，可以在较小的开销下得到有一定意义的表达。常用兴趣点检测算子有Harris角点、FAST算子