基于多级融合单目图像目标检测.pdfVIP

下载本文档

0
0
约9.21万字
约 21页
2026-01-14 发布于北京
举报

基于多级融合单目图像目标检测.pdf

基于多级融合的单目图像3D目标检测

∗大学学院，{ysfalo,zzchen}

@whu.edu.cn

对于2D目标检测，自从基于区域的卷积神经网络

（R‑CNNs）取得成功以来，诸如SPP‑Net[13],、

在本文中，我们提出了一种端到端的基于多级融合

FastR‑CNN[17],、FasterR‑CNN[12],、R‑FCN

的框架，用于从单个单目图像进行3D目标检测。整个

[31],和MaskR‑CNN[7]等先进的有前景的工作主要

网络由两部分组成：一部分用于生成2D区域提议，另

应用深度卷积神经网络（CNNs）从图像中的区域候

一部分用于同时预测目标的2D位置、方向、尺寸和

选中学习特征，以实现准确的2D目标识别。在这里，

3D位置。借助一个独立模块来估计视差并计算3D点云，

我们希望扩展现有的基于图像的2D检法以实现

我们引入了多级融合方案。首先，视差信息编码

3D目标检测。通常，2D目标由其在图像中的位置描述，

为前视特征表示，并将其与RGB图像融合以增强输入。

这与3D目标的表示方式有很大不同。通常，现实世界

其次，从原始输入和点云中提取的特征被结合以提升目

中的3D目标如汽车，由其姿态、3D尺寸和在相机坐标

标检测性能。对于3D定位，我们引入了一个额外的流，

系中的位置来表示。仅使用单目图像进行3D目标

直接从点云预测位置信息，并将其添加到上述位置预测

检测要复杂得多。然而，由于成像机制和几何约束的

中。所算法可以直接输出2D和3D目标检测结果，

存在，所有3D目标的描述符仍然与投影图像内容有紧

仅需单个RGB图像作为输入。在具有性的KITTI基

密的关系，因此有可能仅使用单目图像处理3D检测问

准测试中的实验结果表明，我们的算法显著优于现有的

题。

单目方法。

为了解决这一问题，我们提出了一种基于单目图

像的3D目标检测框架，该框架以端到端的方式估计目

标类别、2D位置、方向、尺寸和3D位置。利用区域提

议网络（RPN）在图像中生成2D提议，因为RPN可以

1.引言具有CNN特征的强对象性置信度的区域

近年来，随着计算机视觉和深度学习技术的发展，（RoIs），并且可以与下游检测网络共享权重

提出了许多令人印象深刻的方法，用于准确的2D目标[31,36,37,19]。通过从提议中学习到的特征，不仅预

基于多级融合单目图像目标检测.pdfVIP

基于多级融合单目图像目标检测.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档