CSDN: 一种用于实时目标检测的上下文门控自适应检测网络.pdfVIP

下载本文档

0
0
约2.42万字
约 8页
2026-03-12 发布于北京
举报

CSDN: 一种用于实时目标检测的上下文门控自适应检测网络.pdf

CSDN:一种用于实时目标检测的上下文门控自适应检测网络

WeiHaolin

Abstract能够更有效地建模长距离依赖关系，通常能获得更高

的准确性。然而，早期的这些模型往往计算量大，并且

卷积神经网络（CNNs）长期以来一直是目标检测推理速度慢，因此近期出现了一种将Transformer组件

的基石，但它们通常受限于有限的感受野，这阻碍了其（通常是集成到检测头中）整合以平衡准确性和效率的

捕捉全局上下文信息的能力。我们重新审视了受DETR混合方法趋势。

启发的检测头，并在其自注意力模块中发现了大量的冗

本余。为了解决这些问题，我们引入了基于Transformer

译的、受到人类视觉感知启发的上下文门控尺度自适应

中检测网络（CSDN）：当观察一个物体时，我们总是集

中在一个点上，感知周围的环境，并在该对象周围扫

v视。这种机制使每个感兴趣区域（ROI）能够自适应地

7选择和结合来自不同模式的不同特征维度和尺度信息。

6CSDN提供了更强大的全局上下文建模能力，并能更好

1地适应不同大小和结构的物体。我们提出的检测头可

6.以直接替换各种基于CNN的检测器的原生头部，只需

0对预训练权重进行几轮微调即可显著提高检测精度。

i1.介绍

a目标检测仍然是计算机视觉中的一个核心任务，支

撑着从自动驾驶和医学成像到安全监控和机器人技术图1.传统的DETR样检测头的简化架构，展示了自注意力

的各种高级应用。多年来，卷积神经网络（CNN），特和可变形交叉注意力层典型堆叠。为了清晰起见，省略了残

别是YOLO系列[2,18]这样的架构，由于其内在的效差连接和归一化层。

率和速度，一直是目标检测的基础，使其非常适合实时

场景。然而，CNN固有的感受野有限，难以捕捉足够我们重新审视了这些受DETR启发的检测头的

的全局上下文信息，特别是在面对不同物体尺度或遮设计，通常涉及反复堆叠自注意力和交叉注意力层

挡时尤为困难。虽然像特征金字塔网络（FPN）[9]这（图1）。例如，在DETR的解码器中，一组固定的可

样的架构改进在一定程度上缓解了一些缩放问题，但学习对象查询通过交叉注意力与整个图像特征图进行

它们对于鲁棒长距离依赖建模的能力仍然受限。交互以定位物体，然后通过它们之间的自注意力来细

Transformer架构[23]的出现，最初在自然语言处化预测。尽管这种全局交互非常强大，但我们的分析揭

理领域取得了成功，通过注意力机制实现了全局信息示了大量冗余，特别是在自注意力模块中：每个表示潜

聚合，从而有望解决这一限制。这导致了像DETR[3]在对象的对象查询都会不加区分地与其他所有查询执

这样的基于Transformer的检测器的发展，这些检测器行成对注意力，而不考虑它们的空间邻近性或语义相

关性。这种无差别全局注意力通常处理无关信息，增加特征：全局语义摘要（块注意，从FPN提取顶级语义

了噪声和计算负担。虽然这种设计在数学上非常优雅，特征以获得宏观背景）、局部背景聚焦（邻域注意，基

但并不符合人类视觉感知的直观：人类不会以统一的于IoU相邻性获取直接周边环境），以及关键局部细节

方式全局比较每个潜在对象区域与其他所有区域；相挖掘（可变形注意力[5]用于精确区分区域）。这种由门

反，我们会本能地关注关键细节，感知周围环境，并快控网络动态加权的全局和局部特征的独特协作

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CSDN: 一种用于实时目标检测的上下文门控自适应检测网络.pdfVIP