PowerBI技巧之FCOS:全卷积一阶段Anchor Free物体检测器,多种视觉任务的统一框架.pdfVIP

PowerBI技巧之FCOS:全卷积一阶段Anchor Free物体检测器,多种视觉任务的统一框架.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
作者 | ronghuaiyang 来源 | AI公园 导读:这是众多Anchor Free中比较有影响力的一篇文章,不光是效果好, 且思路清楚,简单,不需要任何 trick,并将众多的视觉任务统一到了一个框架中,值得一看。 介介绍绍 基于anchor的物体检测器的缺点,这个基本上每篇anchor free的文章都会列一遍。 1. 检测性能依赖于anchor的尺寸,比例,数量,这些都需要非常精细的设计。 2. 一旦anchor设计好了,尺寸,比例就固定了,在物体的尺寸和比例多样性非常大的时候会有困难,特别是 小物体。预设的anchor的泛化能力也有限,对于新的任务,需要重新去设计anchor。 3. 为了有高recall,需要设计非常密集的anchor,FPN中的anchor数量就超过了160k, 且大部分都是负样 本,正负样本非常的不均衡。 4. 在计算的时候需要计算IOU,非常的复杂。 现在的各种计算机视觉的任务,比如分割,深度预测,关键点加测,计数等等,都是全卷积的结构,就物体检 测是个例外。那么,很自然的就有了一个问题:我们能不能把物体检测也变成类似分割那样的逐像素的预测问 题呢?这样的话,这些视觉相关的任务就都统一成了一个架构了,所以说,这篇文章就是干了这么个事情。 之前也有过类似的尝试,直接再feature ap的每个空间位置上回归出一个4D Vector,外加一个类别,不过这些 方法在文本检测中用的较多,因为当物体间的包围框重叠比较多的时候,某一个点就不知道去回归哪一个了。 如图1: 图1:左边是FCOS预测的4个向量,右边是当特征图的某个位置同时位于两个物体内部的时候,这个位置就不知 道去回归哪个物体了。 我们仔细的研究了这个问题,发现使用全卷积的方案是可以很大程度上解决的,后面我们具体去看。我们的新 框架的优点如下: 将物体检测和其他视觉任务的框架进行了统一 检测不需要建议区域,也不需要anchor了。 由于不需要anchor了,所以也没有了IOU之类的复杂计算了,训练更快了,所需要的的内存也更少了。 我们得到了STOA的结果, 且FCOS也可以用到二阶段的检测方案中, 且效果比基于anchor的方案更 好。我们觉得可以重新考虑下anchor在物体检测中的必要性。 可以非常方便的将检测框架扩展到分割,关键点检测等其他视觉任务上。 方方法法 全全卷卷积积一一阶阶段段物物体体检检测测 我们把第i层的特征图记做Fi,它相对于输入图像的stride为s,输入图像的groundtruth bbox记为{Bi},Bi= (x0,y0,x1,y1,c),其中(x0,y0)和(x1,y1)分别为左上角和右下角的坐标,c为物体的类别。对于Fi的每个位置(x,y), 我们可以映射会输入图像中,映射成一个范围(s/2+xs, s/2+ys),对于基于anchor的物体检测方法,我们把这个 位置作为anchor box的中心点,然后去回归目标box相对于这些anchor box的偏差。 我们这里直接在这个位置 上回归目标box,换句话说,我们在训练中是把这些位置当成是样本, 不是anchor box,这个和分割是一样。 如果位置(x,y)落入到某个groundtruth box中, 且类别也和groundtruth box的类别一样,那它就是正样本,否则 就是负样本, 且c=0 (背景)。除了类别标签之外,我们在这个位置上还会回归一个4D的向量,t=(l,t,r,b),其 中,l,t,r,b分别是这个位置点到bbox的4个边的距离,如图1 (左)所示。如果这个位置同时落入到好几个 bbox中,那这种就认为是模糊样本。我们简单的选择一个面积最小的bbox作为它回归的目标。下面,我们会展 示一个多level的预测方法,这种模糊样本的数量会大大的减少,这样几乎不会影响检测的性能。这样,如果位 置(x,y)和一个bbox Bi相关联起来,那么在训练的时候,我们的回归目标可以这样来表示: 这里值得注意的是,FCOS可以利用任意多的前景样本来训练这个回归, 基于anchor的方法只选取哪些和 groundtruth box的IOU大于一定阈值的anchor作为正样本进行训练。我们认为这也许是FCOS效果

您可能关注的文档

文档评论(0)

精通微软Word、Excel、PowerPoint、PowerBI,资料达人。

1亿VIP精品文档

相关文档