复杂场景下的多视角三维场景定位研究.pdfVIP

下载本文档

46
0
约8.49万字
约 55页
2020-12-19 发布于江苏
举报

复杂场景下的多视角三维场景定位研究.pdf

复杂场景下的多视角三维场景定位研究摘要在人工智能飞速发展的时代，人们对智能机器人、自动驾驶、室内导航等服务的需求越来越多，研究者们对这些领域进行了深入研究。这些领域都有一个共同的基本问题——如何较为精确的对相机自身进行定位。CNN 在相机自定位中有较好的表现，但是依然存在精度低、错误率高的问题。其中一个重要原因是对位置、角度这两类不同参量的统一化处理。为了提升现有三维场景定位算法的定位精度，本文提出了两种基于深度学习的端到端的方法从单张彩色图像中恢复相机的位置和姿态。本文主要工作及创新之处总结如下：（1）提出一种双路编解码场景定位网络(DSEDL-Net) ，双路结构的设计解耦了位置与角度，解决了两者之间的串扰问题。由于相机位置和姿态的特性不同，该网络使用多任务思想将位置和姿态使用双路结构分别进行预测，从而得到更可靠的结果。提出使用单尺度降采样模块和多尺度聚合模块的位姿预测器对解码后的特征进行转换，配合使用全局均值池化操作捕捉特征的空间信息，起到减少信息损失的作用。（2 ）提出一种基于联合任务学习的场景定位网络(JTL-LocNet) 。DSEDL-Net 解耦了位置与角度，但两者并不是完全孤立的，因此JTL-LocNet 引入注意力机制的门控模块，选择并传递对于不同任务需要重点关注的信息，这些信息同时也是一种全局特征，克服了卷积网络卷积操作局部性的缺点，使不同任务之间得到信息共享；此外，JTL-LocNet 在DSEDL-Net 基础上，增加辅助任务支路，提升了网络性能，辅助任务分支(如裁剪坐标，旋转角度或缩放因子)在位置解码器后嵌入，对于小规模数据集，辅助任务可以看作网络中一个正则化项，它提供了先验知识，通过添加约束的方式来缩小假设空间，加速网络的收敛。（3 ）在具有挑战性的公开的室内和室外场景数据集上进行了充分实验，证明了本文所提方法的有效性。在室内Microsoft 7-Scenes 数据集上，本文DSEDL- Net 比“PoseNet ”方法的平均位置和姿态误差分别减小了47.7%和2 1.5% ， JTL-LocNet 比“LSTM-Pose ”方法的平均位置和姿态误差分别误差降低了32.3% I 和36.5% ；在室外Cambridge Landmarks 数据集上，本文JTL-LocNet 平均位姿误差比“PoseNet ”降低了44%和64% 。综上，本文所提的两种网络在公开的室内和室外数据集上均达到了良好的效果，证明了本文所提方法用于多视角三维场景定位任务的可行性和有效性。关键词：深度学习，卷积神经网络，场景定位，相机位姿估计，编解码网络 II 目录摘要 I ABSTRACT III 第一章绪论 1 1.1 多视角三维场景定位技术 1 1.2 多视角三维场景定位研究发展 2 1.3 技术路线 3 1.4 本文主要工作内容 3 第二章多视角三维场景定位原理5 2.1 世界坐标到相机坐标 5 2.1.1 世界坐标系到相机坐标系 5 2.1.2 相机坐标系到图像坐标系 6 2.1.3 图像坐标系到像素坐标系 7 2.2 传统3D-2D 场景定位 8 2.2.1 从运动恢复结构 8 2.2.2 同时定位与建图 9 2.3 基于深度学习的场景定位 10 2.3.1 仅RGB 输入的方法 10 2.3.2 多信息源结合的方法 10 2.4 本章小结11 第三章双路编解码场景定位网络12 3.1 编解码神经网络 12 3.1.1 编解码定位网络结构设计 12 3.1.2 编码器网络结构 13 3.1.3 解码器网络结构

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

复杂场景下的多视角三维场景定位研究.pdfVIP