图像分类学习笔记-词袋模型和空间金字塔匹配.docx

图像分类学习笔记-词袋模型和空间金字塔匹配.docx

图像分类学习笔记-词袋模型和空间金字塔匹配

图像分类学习笔记:词袋模型和空间金字塔匹配Image Classification Framework: Bag-of-Words Spatial Pyramid Matching一、基础:词袋模型(Bag of Words)Bag-of-Words(词袋、词包)模型,或称Bag of Features模型,源于文本分类技术。在信息检索中,假定对于一个文本,忽略其词序和语法、句法。将其仅仅看作是一个词的集合,每个词都是彼此概率独立的。这样可以通过文档中单词出现的频率来对文档进行描述与表达。Csurka等[1] 于2004年将其引入计算机视觉领域。其核心思想在于,图像可以视为一种文档对象,图像中不同的局部区域或其特征可看作构成图像的词汇,其中相近的区域或其特征可以视作为一个词。这样,可以把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。理论对应关系如下:用词袋模型生成对一张图像的描述向量的处理步骤:1、局部特征提取通过兴趣点检测、密集采样或随机采集,结合图割区域、显著区域等方式获得图像各处的局部特征。常用的是SIFT特征和Dense SIFT特征。 2、构建视觉词典在整个训练集上提取局部特征后,使用某种聚类算法(如K-means)将局部特征进行聚类,每个聚类中心可以看作是词典中的一个视觉词汇(Visual Word),相当于文本检索中的词,

文档评论(0)

1亿VIP精品文档

相关文档