深度学习检测小目标常用方法.docxVIP

下载本文档

0
0
约2.96千字
约 11页
2025-03-29 发布于湖南
举报
版权申诉

深度学习检测小目标常用方法.docx

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

传统的图像金字塔和多尺度滑动窗口检测

最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图build出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。

在著名的人脸检测器MTCNN中，就使用了图像金字塔的方法来检测不同分辨率的人脸目标。

不过这种方式速度慢（虽然通常build图像金字塔可以使用卷积核分离加速或者直接简单粗暴地resize，但是还是需要做多次的特征提取呀），后面有人借鉴它的思想搞出了特征金字塔网络FPN，它在不同层取特征进行融合，只需要一次前向计算，不需要缩放图片，也在小目标检测中得到了应用，在本文后面会讲到。

简单粗暴又可靠的DataAugmentation

深度学习的效果在某种意义上是靠大量数据喂出来的，小目标检测的性能同样也可以通过增加训练集中小目标样本的种类和数量来提升。在《深度学习中不平衡样本的处理》一文中已经介绍了许多数据增强的方案，这些方案虽然主要是解决不同类别样本之间数量不均衡的问题的，但是有时候小目标检测之难其中也有数据集中小样本相对于大样本来说数量很少的因素，所以其中很多方案都可以用在小样本数据的增强上，这里不赘述。另外，在19年的论文Augmentationforsmallobjectdetection中，也提出了两个简单粗暴的方法：

方法一

针对COCO数据集中包含小目标的图片数量少的问题，使用过采样OverSampling策略；

方法二

针对同一张图片里面包含小目标数量少的问题，在图片内用分割的Mask抠出小目标图片再使用复制粘贴的方法（当然，也加上了一些旋转和缩放，另外要注意不要遮挡到别的目标）。

在同一张图中有更多的小目标，在Anchor策略的方法中就会匹配出更多的正样本。

特征融合的FPN

不同阶段的特征图对应的感受野不同，它们表达的信息抽象程度也不一样。浅层的特征图感受野小，比较适合检测小目标（要检测大目标，则其只“看”到了大目标的一部分，有效信息不够）；深层的特征图感受野大，适合检测大目标（要检测小目标，则其”看“到了太多的背景噪音，冗余噪音太多）。所以，有人就提出了将不同阶段的特征图，都融合起来，来提升目标检测的性能，这就是特征金字塔网络FPN。

在人脸领域，基本上性能好一点的方法都是用了FPN的思想，其中比较有代表性的有：

RetinaFace:Single-stageDenseFaceLocalisationintheWild

另外一个思路：

既然可以在不同分辨率特征图做融合来提升特征的丰富度和信息含量来检测不同大小的目标，那么自然也有人会进一步地猜想，如果只用高分辨率的特征图（浅层特征）去检测小脸；用中间分辨率的特征图（中层特征）去检测大脸；最后用地分辨率的特征图（深层特征）去检测小脸。比如人脸检测中的SSH。

合适的训练方法SNIP,SNIPER,SAN

机器学习里面有个重要的观点，模型预训练的分布要尽可能地接近测试输入的分布。所以，在大分辨率（比如常见的224x224）下训练出来的模型，不适合检测本身是小分辨率再经放大送入模型的图片。如果是小分辨率的图片做输入，应该在小分辨率的图片上训练模型；再不行，应该用大分辨率的图片训练的模型上用小分辨率的图片来微调fine-tune；最差的就是直接用大分辨率的图片来预测小分辨率的图（通过上采样放大）。但是这是在理想的情况下的（训练样本数量、丰富程度都一样的前提下，但实际上，很多数据集都是小样本严重缺乏的），所以放大输入图像+使用高分率图像预训练再在小图上微调，在实践中要优于专门针对小目标训练一个分类器。

在下图中示意的是SNIP训练方法，训练时只训练合适尺寸的目标样本，只有真值的尺度和Anchor的尺度接近时来用来训练检测器，太小太大的都不要，预测时输入图像多尺度，总有一个尺寸的Anchor是合适的，选择那个最合适的尺度来预测。对R-FCN提出的改进主要有两个地方，一是多尺寸图像输入，针对不同大小的输入，在经过RPN网络时需要判断validGT和invalidGT，以及validanchor和invalidanchor，通过这一分类，使得得到的预选框更加的准确；二是在RCN阶段，根据预选框的大小，只选取在一定范围内的预选框，最后使用NMS来得到最终结果。

SNIPER是SNIP的实用升级版本，这里不做详细介绍了。

稠密Anchor采样和匹配策略S3FD,FaceBoxes

在前面DataAugmentation部分已经讲了，复制小目标到一张图的多个地方可以增加小目标匹配的Anchor框的个数，增加小目标的训练权重

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习检测小目标常用方法.docxVIP