- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ObjectDetectionwithDiscriminativelyTrainedPartBasedModels【中文译】
使用判别训练的部件模型进行目标检测
Pedro F. Felzenszwalb, Ross B.Girshick, David McAllester and Deva Ramanan
HYPERLINK /masibuaa/article/details使用判别训练的部件模型进行目标检测 Object Detection with Discriminatively Trained Part Based Models
摘要
本文介绍了一个基于混合多尺度可变形部件模型(mixtures of multiscale deformablepart model) 的目标检测系统。此系统可以表示各种多变的目标并且在PASCAL目标检测挑战赛上达到了目前最优结果(state-of-the-art)。虽然可变形 部件模型现在很流行,但它的价值并没有在类似PASCAL这种较难的测试集上进行展示。此系统依赖于使用未完全标注(partially labeled)的样本进行判别训练的新方法。我们提出了一种间隔敏感(margin-sensitive)的难例挖掘方法(data-mining hard negativeexample),称为隐藏变量SVM(latent SVM, LSVM),是MI-SVM加入隐藏变量后的重新表示。LSVM的训练问题是一个半凸规划(semi-convex)问题,但如果将正样本的隐藏变量的值指定后,LSVM的训练问题变为凸规划问题。最终可以使用一个迭代训练方法来解决,此迭代算法不断交替地固定正样本的隐藏变量和最优化目标函数。
关键词
目标识别(ObjectRecognition),可变形模型(Deformable Models),图结构模型(Pictorial Structures),判别训练(Discriminative Training),隐藏变量SVM(Latent SVM)
1 引言
目标检测是计算机视觉领域内一项基础性的工作。本论文研究在静态图片中检测并定位某一类目标(例如人或车)的问题。由于这些类别中的目标外表可能千差万 别,使得此项工作变得有些复杂。而且,变化不仅来自亮度和视角,还有由于目标不是刚体而引起的形变,以及同一类目标的形状和其他视觉上的变化。例如,人可 能穿不同的衣服,做不同的姿势,车可能有不同的形状和颜色。
本文介绍了一个基于混合多尺度可变形部件模型的目标检测系统,它可以表示各种多变的目标。此模型使用判别程序进行训练,训练过程只需要用到图片集中目标的矩形框(包围盒)(意思是说只需要整个目标的标注信息,不需要各个部件的标注信息)。训练好的系统既高效又精确,能够在PASCAL VOC测试集[11-13]和INRIA人体测试集 HYPERLINK /masibuaa/article/details\t /masibuaa/article/details/_blank [10]上达到目前最佳结果。
我们的方法基于图结构(Pictorial Structures)框架[15][20]。图结构使用一系列部件以及部件间的位置关系来表示目标。每个部件描述目标的一个局部属性,通过部件间的弹簧连接(Spring-like Connection)表示模型的可变形配置。
可变形部件模型(例如图结构)是目标检测中的优秀方法,但是很难在实际中建立价值。在一些难度大的数据集上,可变形部件模型经常被一些简单的模型——例如固定(刚体rigid)模版[10]或特征袋(bag-of-features)[44]所超越。本论文的目标之一就是解决这一问题。
虽然可变形模型可适应很多外表变化,但单个可变形模型还不足以表示一个变化丰富的目标类别。例如对图像中的自行车外表建模的问题。自行车有各种类型(例如,山地车,双人自行车,以及19世纪的有一个大轮一个小轮的自行车),并且观察视角也会有不同(例如从前面看和从侧面看),所以本文中的系统使用混合模型来适应这些变化。
我们最终感兴趣的是使用视觉语法(Visual Grammars)对目标进行建模。基于语法的模型(例如[16][24][45])使用可变层次结构来表示目标,是可变形部件模型的扩展和一般化。基于语法的模型(grammar based model)中的每个部件都可以被直接定义,或者根据其他部件进行定义。此外,基于语法的模型考虑到结构的变化。这些模型还提供在不同目标类别间共享信息和计算的框架,例如,不同的模型共享可重用的部件。
基于语法的模型是我们的终极目标,现在我们采取了一种研究方法,使用此方法使得我们可以在保证高性能的前提下逐步改进模型,使它变得更丰富。通过丰富模型来改进性能是非常困难的。在计算机视觉、语音识别、机器翻译和
文档评论(0)