PowerBI技巧之FCOS：全卷积一阶段Anchor Free物体检测器，多种视觉任务的统一框架.pdfVIP

下载本文档

0
0
约4.38千字
约 8页
2021-12-07 发布于云南
举报
版权申诉

PowerBI技巧之FCOS：全卷积一阶段Anchor Free物体检测器，多种视觉任务的统一框架.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

作者 | ronghuaiyang 来源 | AI公园导读：这是众多Anchor Free中比较有影响力的一篇文章，不光是效果好，且思路清楚，简单，不需要任何 trick，并将众多的视觉任务统一到了一个框架中，值得一看。介介绍绍基于anchor的物体检测器的缺点，这个基本上每篇anchor free的文章都会列一遍。 1. 检测性能依赖于anchor的尺寸，比例，数量，这些都需要非常精细的设计。 2. 一旦anchor设计好了，尺寸，比例就固定了，在物体的尺寸和比例多样性非常大的时候会有困难，特别是小物体。预设的anchor的泛化能力也有限，对于新的任务，需要重新去设计anchor。 3. 为了有高recall，需要设计非常密集的anchor，FPN中的anchor数量就超过了160k，且大部分都是负样本，正负样本非常的不均衡。 4. 在计算的时候需要计算IOU，非常的复杂。现在的各种计算机视觉的任务，比如分割，深度预测，关键点加测，计数等等，都是全卷积的结构，就物体检测是个例外。那么，很自然的就有了一个问题：我们能不能把物体检测也变成类似分割那样的逐像素的预测问题呢？这样的话，这些视觉相关的任务就都统一成了一个架构了，所以说，这篇文章就是干了这么个事情。之前也有过类似的尝试，直接再feature ap的每个空间位置上回归出一个4D Vector，外加一个类别，不过这些方法在文本检测中用的较多，因为当物体间的包围框重叠比较多的时候，某一个点就不知道去回归哪一个了。如图1：图1：左边是FCOS预测的4个向量，右边是当特征图的某个位置同时位于两个物体内部的时候，这个位置就不知道去回归哪个物体了。我们仔细的研究了这个问题，发现使用全卷积的方案是可以很大程度上解决的，后面我们具体去看。我们的新框架的优点如下：将物体检测和其他视觉任务的框架进行了统一检测不需要建议区域，也不需要anchor了。由于不需要anchor了，所以也没有了IOU之类的复杂计算了，训练更快了，所需要的的内存也更少了。我们得到了STOA的结果，且FCOS也可以用到二阶段的检测方案中，且效果比基于anchor的方案更好。我们觉得可以重新考虑下anchor在物体检测中的必要性。可以非常方便的将检测框架扩展到分割，关键点检测等其他视觉任务上。方方法法全全卷卷积积一一阶阶段段物物体体检检测测我们把第i层的特征图记做Fi，它相对于输入图像的stride为s，输入图像的groundtruth bbox记为{Bi}，Bi= (x0,y0,x1,y1,c)，其中(x0,y0)和(x1,y1)分别为左上角和右下角的坐标，c为物体的类别。对于Fi的每个位置(x,y)，我们可以映射会输入图像中，映射成一个范围(s/2+xs, s/2+ys)，对于基于anchor的物体检测方法，我们把这个位置作为anchor box的中心点，然后去回归目标box相对于这些anchor box的偏差。我们这里直接在这个位置上回归目标box，换句话说，我们在训练中是把这些位置当成是样本，不是anchor box，这个和分割是一样。如果位置(x,y)落入到某个groundtruth box中，且类别也和groundtruth box的类别一样，那它就是正样本，否则就是负样本，且c=0 （背景）。除了类别标签之外，我们在这个位置上还会回归一个4D的向量，t=(l,t,r,b)，其中，l，t，r，b分别是这个位置点到bbox的4个边的距离，如图1 （左）所示。如果这个位置同时落入到好几个 bbox中，那这种就认为是模糊样本。我们简单的选择一个面积最小的bbox作为它回归的目标。下面，我们会展示一个多level的预测方法，这种模糊样本的数量会大大的减少，这样几乎不会影响检测的性能。这样，如果位置(x,y)和一个bbox Bi相关联起来，那么在训练的时候，我们的回归目标可以这样来表示：这里值得注意的是，FCOS可以利用任意多的前景样本来训练这个回归，基于anchor的方法只选取哪些和 groundtruth box的IOU大于一定阈值的anchor作为正样本进行训练。我们认为这也许是FCOS效果