基于多级融合单目图像目标检测.pdfVIP

  • 0
  • 0
  • 约9.21万字
  • 约 21页
  • 2026-01-14 发布于北京
  • 举报

基于多级融合的单目图像3D目标检测

∗大学学院,{ysfalo,zzchen}

@whu.edu.cn

对于2D目标检测,自从基于区域的卷积神经网络

(R‑CNNs)取得成功以来,诸如SPP‑Net[13],、

在本文中,我们提出了一种端到端的基于多级融合

FastR‑CNN[17],、FasterR‑CNN[12],、R‑FCN

的框架,用于从单个单目图像进行3D目标检测。整个

[31],和MaskR‑CNN[7]等先进的有前景的工作主要

网络由两部分组成:一部分用于生成2D区域提议,另

应用深度卷积神经网络(CNNs)从图像中的区域候

一部分用于同时预测目标的2D位置、方向、尺寸和

选中学习特征,以实现准确的2D目标识别。在这里,

3D位置。借助一个独立模块来估计视差并计算3D点云,

我们希望扩展现有的基于图像的2D检法以实现

我们引入了多级融合方案。首先,视差信息编码

3D目标检测。通常,2D目标由其在图像中的位置描述,

为前视特征表示,并将其与RGB图像融合以增强输入。

这与3D目标的表示方式有很大不同。通常,现实世界

其次,从原始输入和点云中提取的特征被结合以提升目

中的3D目标如汽车,由其姿态、3D尺寸和在相机坐标

标检测性能。对于3D定位,我们引入了一个额外的流,

系中的位置来表示。仅使用单目图像进行3D目标

直接从点云预测位置信息,并将其添加到上述位置预测

检测要复杂得多。然而,由于成像机制和几何约束的

中。所算法可以直接输出2D和3D目标检测结果,

存在,所有3D目标的描述符仍然与投影图像内容有紧

仅需单个RGB图像作为输入。在具有性的KITTI基

密的关系,因此有可能仅使用单目图像处理3D检测问

准测试中的实验结果表明,我们的算法显著优于现有的

题。

单目方法。

为了解决这一问题,我们提出了一种基于单目图

像的3D目标检测框架,该框架以端到端的方式估计目

标类别、2D位置、方向、尺寸和3D位置。利用区域提

议网络(RPN)在图像中生成2D提议,因为RPN可以

1.引言具有CNN特征的强对象性置信度的区域

近年来,随着计算机视觉和深度学习技术的发展,(RoIs),并且可以与下游检测网络共享权重

提出了许多令人印象深刻的方法,用于准确的2D目标[31,36,37,19]。通过从提议中学习到的特征,不仅预

检测。2D检测结果了图像坐标系统中每个目标的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档