CSDN: 一种用于实时目标检测的上下文门控自适应检测网络.pdfVIP

  • 0
  • 0
  • 约2.42万字
  • 约 8页
  • 2026-03-12 发布于北京
  • 举报

CSDN: 一种用于实时目标检测的上下文门控自适应检测网络.pdf

CSDN:一种用于实时目标检测的上下文门控自适应检测网络

WeiHaolin

Abstract能够更有效地建模长距离依赖关系,通常能获得更高

的准确性。然而,早期的这些模型往往计算量大,并且

卷积神经网络(CNNs)长期以来一直是目标检测推理速度慢,因此近期出现了一种将Transformer组件

的基石,但它们通常受限于有限的感受野,这阻碍了其(通常是集成到检测头中)整合以平衡准确性和效率的

捕捉全局上下文信息的能力。我们重新审视了受DETR混合方法趋势。

启发的检测头,并在其自注意力模块中发现了大量的冗

本余。为了解决这些问题,我们引入了基于Transformer

译的、受到人类视觉感知启发的上下文门控尺度自适应

中检测网络(CSDN):当观察一个物体时,我们总是集

中在一个点上,感知周围的环境,并在该对象周围扫

2

v视。这种机制使每个感兴趣区域(ROI)能够自适应地

9

7选择和结合来自不同模式的不同特征维度和尺度信息。

6CSDN提供了更强大的全局上下文建模能力,并能更好

7

1地适应不同大小和结构的物体。我们提出的检测头可

6.以直接替换各种基于CNN的检测器的原生头部,只需

0对预训练权重进行几轮微调即可显著提高检测精度。

5

2

:

v

i1.介绍

x

r

a目标检测仍然是计算机视觉中的一个核心任务,支

撑着从自动驾驶和医学成像到安全监控和机器人技术图1.传统的DETR样检测头的简化架构,展示了自注意力

的各种高级应用。多年来,卷积神经网络(CNN),特和可变形交叉注意力层典型堆叠。为了清晰起见,省略了残

别是YOLO系列[2,18]这样的架构,由于其内在的效差连接和归一化层。

率和速度,一直是目标检测的基础,使其非常适合实时

场景。然而,CNN固有的感受野有限,难以捕捉足够我们重新审视了这些受DETR启发的检测头的

的全局上下文信息,特别是在面对不同物体尺度或遮设计,通常涉及反复堆叠自注意力和交叉注意力层

挡时尤为困难。虽然像特征金字塔网络(FPN)[9]这(图1)。例如,在DETR的解码器中,一组固定的可

样的架构改进在一定程度上缓解了一些缩放问题,但学习对象查询通过交叉注意力与整个图像特征图进行

它们对于鲁棒长距离依赖建模的能力仍然受限。交互以定位物体,然后通过它们之间的自注意力来细

Transformer架构[23]的出现,最初在自然语言处化预测。尽管这种全局交互非常强大,但我们的分析揭

理领域取得了成功,通过注意力机制实现了全局信息示了大量冗余,特别是在自注意力模块中:每个表示潜

聚合,从而有望解决这一限制。这导致了像DETR[3]在对象的对象查询都会不加区分地与其他所有查询执

这样的基于Transformer的检测器的发展,这些检测器行成对注意力,而不考虑它们的空间邻近性或语义相

关性。这种无差别全局注意力通常处理无关信息,增加特征:全局语义摘要(块注意,从FPN提取顶级语义

了噪声和计算负担。虽然这种设计在数学上非常优雅,特征以获得宏观背景)、局部背景聚焦(邻域注意,基

但并不符合人类视觉感知的直观:人类不会以统一的于IoU相邻性获取直接周边环境),以及关键局部细节

方式全局比较每个潜在对象区域与其他所有区域;相挖掘(可变形注意力[5]用于精确区分区域)。这种由门

反,我们会本能地关注关键细节,感知周围环境,并快控网络动态加权的全局和局部特征的独特协作

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档