基于视觉显著性和超像素融合物体定位方法.docVIP

下载本文档

11
0
约8.92千字
约 15页
2018-08-30 发布于福建
举报
版权申诉

基于视觉显著性和超像素融合物体定位方法.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于视觉显著性和超像素融合物体定位方法

基于视觉显著性和超像素融合物体定位方法　　摘要：针对选择性搜索算法所需定位窗口数量过多的问题，提出了一种基于视觉显著性和超像素融合的改进方法。首先，利用视觉显著性图像粗略估计物体的位置；然后，从这些初始位置开始，根据图像的表观特征融合相邻超像素，并引入一种背景分析方法以避免过度融合；最后，利用贪心算法将融合后的区域再进行组合，并生成最终的定位窗口。在Pascal VOC 2007数据集上的实验结果表明，与选择性搜索方法相比，在同样的检测标准下（查全率为0.91），改进后的方法所使用的窗口数量减少了20%，而重叠率达到了0.77。该方法由粗到细地进行物体定位，在定位窗口数量较少的情况下仍能保持较高的重叠率和查全率。　　关键词：物体定位；视觉显著性；超像素；滑动窗口；物体识别　　中图分类号： TP391.413 　　文献标志码：A 　　0 引言　　近年来，物体识别成为了计算机视觉领域中一个重要的研究方向，并且取得了长足的进步。物体识别一般可以分为两个阶段：定位和识别。在较为出色的物体识别算法中，大多数定位方法主要是滑动窗口的方法[1-3]。滑动窗口算法的最大优势就在于它使用简便，不需要在定位阶段耗费大量的计算资源。然而，一般滑动窗口会产生多达几十万、上百万的搜索窗口并且对窗口长宽比有限制，而这会严重影响后期识别阶段的快速性和准确性[4]，因此在后续识别中，为了计算速度上的考虑，它们往往会采用弱特征加分类器级联的方式进行识别，不宜使用那些性能优秀的复杂特征和分类器，降低了识别的准确度。　　另外一种与滑动窗口不同的定位方法是通过一些图像特征更为直接地去搜索可能的物体位置。这类方法将待处理的窗口数量降低到几千甚至几百个，为后续处理过程中使用更为强大的特征和分类器创造了条件。Wang等[5]在其物体识别算法中就采用了一种选择性搜索办法，大大提高了物体识别的准确度，但他同时也指出这种搜索办法也是计算的一个瓶颈。有目的的物体定位在图像处理中有广泛的应用前景，本文的目的是寻求定位数量、定位精度和计算时间上的平衡，力争以较少的定位窗口数量实现较高质量的定位。　　1 相关研究　　在物体定位方法上，存在两大研究方向：一种是针对滑动窗口的优化；一种是探寻更为直接的物体定位算法。在滑动窗口优化研究中，Lampert等[6]提出了分支界定技术，使用表观特征模型指导搜索，直接在图像中选出最优的物体定位，但是这种方法在非线性分类器中依然会产生100000个搜索窗口。Felzenszwalb等[2]提出的基于部件的物体定位方法也取得了较大的成功，该方法的效果对物体和其部件的组合有较强的依赖。　　上述方法都是针对特定的物体类别进行的优化，Alexe等[7]提出了一种方法来定量地衡量一个窗口中有多大的可能性会包含有一个物体，而且这个物体可能属于任何一种物体类别，即它是类独立的。该方法首先学习正确物体窗口的特征，训练出分类器之后，将其用在滑动窗口所产生的大量窗口上进行筛选，窗口的数量大大降低。Vedaldi等[8]提出了跳跃窗口技术，使用词袋模型中的视觉词去预测物体的位置。Endres等[9]利用性能出色的边缘检测算子[10]对一幅图像进行多次分割，根据之前训练的特征计算一个分割区域包含物体的概率，然后进行排序以得到物体可能位置；但是该方法需要耗费极大的计算资源，在物体识别的实际应用中尚不能有效利用。　　以上方法多是通过正确事例的学习而训练出分类器，将其用于位置预测。而van de Sande等[4]所提出的选择性搜索（Selective Search）方法则利用图像的表观特征，采用不同的组合策略，将图像中的各个区域进行趋于完整物体的多次组合。该方法在定位精度上达到了新的高度，但是其定位窗口数量仍然有减少的空间。　　人类的视觉系统可以在不知道图像中究竟有什么物体的前提下，就可以将图像中的各个元素组成一个可能的物体区域[11]。人在观察一幅图像的时候，往往是先对图像中的物体产生总体映像，然后才会根据需要定位到具体位置，再仔细地观察物体的颜色、轮廓等细节特征。在这个过程中，人眼对于其他的位置并不会过多地注意。基于以上考虑，本文提出一种基于视觉显著性和超像素融合的方法，先粗略定位图像中的物体；然后逐步细化，由粗到细地确定物体可能的位置。　　2 本文的物体定位方法　　2.1 总体框架　　视觉显著性检测在人的视觉系统中是一个选择处理过程，目的是定位图像中重要的区域或物体[12]。被检测出来的图像显著部分很有可能包含了一个物体或者物体的某一部分，本文利用这一点实现物体的粗略定位。图1是利用文献[13]的方法实现的一个视觉显著性检测的例子，从图1中可以看出，图1（a）中的“汽车”在图1（c）中可以找到大概位置。但是仅仅知道大