- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于特征袋_自然场景分类的空间金字塔匹配.
基于特征袋_用于自然场景分类的空间金字塔匹配Svetlana Lazebnik1 Cordelia Schmid2 Jean Ponce1,32006年摘要本文提出了一种基于近似全局几何对应关系的识别场景类别的方法。这种方法将图像逐渐细分并计算每个子区域内的局部特征的直方图。由此产生的“空间金字塔”是一种简单、计算高效的对无序特征袋进行扩展的图像表示方法,并且它在对具有挑战性的场景分类任务中显示出了提高的性能。具体来说,我们所提出的方法超过了在Caltech-101数据库上目前的水平,在包含十五种自然场景类别得大型数据库上达到了较高的准确性。空间金字塔框架也为最近提出的一些图像描述符提供了见解,包括Torralba的GIST描述符和Lowe的SIFT描述符。1.引言在本文中,我们考虑识别图像的语义类别这一问题。例如,我们可能要把一张照片归类为描述一个场景(森林,街道,办公室等)或包含某个感兴趣的对象。对整个图像的分类任务,特征袋方法——将图像表示为局部特征的无序集合——最近表现出令人印象深刻的性能水平[7,22,23,25]。不过,因为这些方法都忽略了关于特征的空间布局的所有信息,它们的描述能力受到严重限制。尤其是,它们无法从其背景中捕捉对象的形状或分割图像。不幸的是,克服这些限制并建立有效的结构性对象描述符已经证明是相当具有挑战性的,尤其是当识别系统必须在强杂波,闭塞或大视角变化的存在下进行工作。基于生成模型[3,5]和几何对应搜索[1,11]的方法在计算费用方面实现了鲁棒性。一个更有效的方法是用相邻的局部特征之间的对偶关系来增加基本的特征袋表示,但这个想法现有的实现[11,17]得到了不确定的结果。提高几何形变鲁棒性的另一种策略是提高局部特征不变性的水平(例如,通过使用仿射不变检测器),但最近的一次大规模评估表明,这一策略通常不能取得成功。尽管我们仍然赞成发展结构性对象表示的鲁棒性和几何不变性的目标,但在本文中,我们提出在固定区域局部特征的汇总统计基础上重新审视“全局”非恒定表示。我们介绍一个基于核的识别方法——通过使用改编自Grauman和Darrell[7]金字塔匹配方案的高效近似方法在全局范围内计算粗略的几何关系。我们的方法涉及在不断精细的分辨率上重复细分图像并计算局部特征的直方图。正如在第5节实验中所示,这个简单的操作足以在基本特征袋表示的基础上显著提高性能,甚至超过了基于详细的几何对应关系的方法。先前的研究已经表明,所有方法里不分析其构成对象的统计特性产生关于语义范畴的大量线索[13]。我们自己的实验证实全局表示不仅对识别整体场景,对包含特定对象的分类图像也是惊人的有效,甚至当这些对象被嵌入在重型杂波和不同的姿势和外观时。也就是说,我们不提倡对象识别中全局方法的直接应用(除非图像的种类极其有限时)。相反,我们设想此方法的次要作用。它可以被用来捕捉图像的gist[21],并预示特定对象(例如,如果基于全局描述的图像很可能是一条公路,我们很可能找到一辆汽车而不是一个烤面包机)随后的搜索。此外,我们的方法的简单性和高效性,结合它在具有挑战性的数据上产生预料不到的高识别率的趋势,可能为其“校准”新的数据集和评估更复杂的识别方法奠定很好的基础。先前的工作在计算机视觉中,直方图作为一种图像描述方法有着悠久的历史(见[16,19])。Koenderink和Van Doorn[10]推广了局部无序图像的直方图,或直方图值尺度空间(即对于给定位置和尺度的每个高斯孔径,局部无序图像返回在给定位置和尺度下聚集在该孔径的图像特征的直方图)。我们的空间金字塔方法可以被认为是局部无序图像的一种替代构想,取代孔径的高斯尺度空间,我们定义了一个矩形窗口的固定层次结构。Koenderink和Van Doorn坚信局部无序图像在视觉感知中发挥着重要作用。我们的检索实验(图4)确信空间金字塔可以捕获感知的显著特征,并表明“局部无序匹配”可能对图像之间的整体感知相似度估计来说是一个强大的机制。将我们所提出的方法与多分辨率直方图[8]——涉及对一个图像进行重复采样并在每个新级别(level)计算像素值的局部直方图——进行对比是重要的。换句话说,多分辨率直方图使分辨率变化,并计算此时的特征(强度值),但直方图分辨率(强度等级)保持固定。我们采取相反的方法,即固定分辨率,并计算此时的特征,但使用不同的的空间分辨率。这导致保留更多信息的更高维表示(例如,由黑白相间的条纹组成的图像将在空间金字塔的每一个层次保留2个模式,而它会变得不是从一个均匀灰度图像,而是从多分辨率直方图的最精细水平中不可区分)。最后,不像多分辨率直方图,当配备适当的内核时,空间金字塔可用于近似几何匹配。“细分和无序”运算——即将图像分成子块,并在子块中计算局部特征的直方图(或直方图统计,如均
文档评论(0)