复杂场景下的多视角三维场景定位研究.pdfVIP

  • 46
  • 0
  • 约8.49万字
  • 约 55页
  • 2020-12-19 发布于江苏
  • 举报

复杂场景下的多视角三维场景定位研究.pdf

复杂场景下的多视角三维场景定位研究 摘 要 在人工智能飞速发展的时代,人们对智能机器人、自动驾驶、室内导航等服 务的需求越来越多,研究者们对这些领域进行了深入研究。这些领域都有一个共 同的基本问题——如何较为精确的对相机自身进行定位。CNN 在相机自定位中 有较好的表现,但是依然存在精度低、错误率高的问题。其中一个重要原因是对 位置、角度这两类不同参量的统一化处理。为了提升现有三维场景定位算法的定 位精度,本文提出了两种基于深度学习的端到端的方法从单张彩色图像中恢复相 机的位置和姿态。本文主要工作及创新之处总结如下: (1) 提出一种双路编解码场景定位网络(DSEDL-Net) ,双路结构的设计解耦 了位置与角度,解决了两者之间的串扰问题。由于相机位置和姿态的特性不 同,该网络使用多任务思想将位置和姿态使用双路结构分别进行预测,从而 得到更可靠的结果。提出使用单尺度降采样模块和多尺度聚合模块的位姿预 测器对解码后的特征进行转换,配合使用全局均值池化操作捕捉特征的空间 信息,起到减少信息损失的作用。 (2 ) 提出一种基于联合任务学习的场景定位网络(JTL-LocNet) 。DSEDL-Net 解耦了位置与角度,但两者并不是完全孤立的,因此JTL-LocNet 引入注意力 机制的门控模块,选择并传递对于不同任务需要重点关注的信息,这些信息 同时也是一种全局特征,克服了卷积网络卷积操作局部性的缺点,使不同任 务之间得到信息共享;此外,JTL-LocNet 在DSEDL-Net 基础上,增加辅助 任务支路,提升了网络性能,辅助任务分支(如裁剪坐标,旋转角度或缩放因 子)在位置解码器后嵌入,对于小规模数据集,辅助任务可以看作网络中一个 正则化项,它提供了先验知识,通过添加约束的方式来缩小假设空间,加速 网络的收敛。 (3 ) 在具有挑战性的公开的室内和室外场景数据集上进行了充分实验,证明 了本文所提方法的有效性。在室内Microsoft 7-Scenes 数据集上,本文DSEDL- Net 比“PoseNet ”方法的平均位置和姿态误差分别减小了47.7%和2 1.5% , JTL-LocNet 比“LSTM-Pose ”方法的平均位置和姿态误差分别误差降低了32.3% I 和36.5% ;在室外Cambridge Landmarks 数据集上,本文JTL-LocNet 平均位 姿误差比“PoseNet ”降低了44%和64% 。 综上,本文所提的两种网络在公开的室内和室外数据集上均达到了良好的效 果,证明了本文所提方法用于多视角三维场景定位任务的可行性和有效性。 关键词:深度学习,卷积神经网络,场景定位,相机位姿估计,编解码网 络 II 目 录 摘 要 I ABSTRACT III 第一章 绪论 1 1.1 多视角三维场景定位技术 1 1.2 多视角三维场景定位研究发展 2 1.3 技术路线 3 1.4 本文主要工作内容 3 第二章 多视角三维场景定位原理5 2.1 世界坐标到相机坐标 5 2.1.1 世界坐标系到相机坐标系 5 2.1.2 相机坐标系到图像坐标系 6 2.1.3 图像坐标系到像素坐标系 7 2.2 传统3D-2D 场景定位 8 2.2.1 从运动恢复结构 8 2.2.2 同时定位与建图 9 2.3 基于深度学习的场景定位 10 2.3.1 仅RGB 输入的方法 10 2.3.2 多信息源结合的方法 10 2.4 本章小结11 第三章 双路编解码场景定位网络12 3.1 编解码神经网络 12 3.1.1 编解码定位网络结构设计 12 3.1.2 编码器网络结构 13 3.1.3 解码器网络结构

文档评论(0)

1亿VIP精品文档

相关文档