2025《位姿估计网络概述》2100字.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE58

位姿估计网络概述

在后续章节中,有些理论源自DenseFusion算法,如逐像素特征向量稠密融合、异步位姿迭代优化网络。为方便后续研究,本节主要介绍两种位姿估计网络DenseFusion[40]和G2L-Net[41]。

1.1DenseFusion位姿估计网络

DenseFusion[40]位姿估计网络是李飞飞团队于2018年提出的一种新颖的6D位姿估计网络。针对RGB图像和深度图具有不同数据结构这一问题,DenseFusion使用独立的网络分别处理颜色图像和深度图。并且,它还提出一种新颖的融合策略——将颜色特征和深度特征逐像素融合,获得稠密特征向量。为保证位姿估计结果的准确性,DenseFusion整合了端到端可训练的异步位姿迭代优化网络。最终在LineMod数据集和YCB数据集上验证,DenseFusion性能领先于其他模型。

图28为DesneFusion算法的总体框图。DenseFusion算法整体上可分为四个步骤。第一步是使用分割掩码截取相应的深度子图,并将其转换成点云;第二步是使用不同的网络分别提取特征,再将两种特征逐像素融合获得稠密特征向量;第三步是使用PoseNet对稠密特征向量进行预测,获得位姿信息和分类信息;第四步是通过迭代优化网络,对预测结果进行微调,以提升算法性能。

图28DenseFusion算法的总体框图[40]

Fig28overallstructuraldiagramofDenseFusionalgorithm[40]

首先,DenseFusion利用PSPNet[31]网络对输入的RGB图像进行语义分割,获得包含目标物体的分割掩码和边框。位姿估计数据集提供的深度图和RGB图是一一对应的,利用分割掩码和边框信息在深度图上剪切相应的区域,获得深度子图。通过相机参数和坐标转换,将深度子图转换成三维空间下的点云数据。

RGB图像和深度图是两种具有不同结构的数据。为保留各自的数据结构,DenseFusion设计独立的特征提取网络分别对两种数据进行处理。颜色子图通过CNN网络提取特征;深度子图转换出的点云使用类PointNet的网络处理。之后,将获得的颜色特征和点云特征逐像素融合,获得新特征向量。通过MLP网络和平均池化处理获得全局特征,将全局特征与新特征向量再次逐像素融合,完成稠密特征融合。

将融合后的稠密特征向量传入PoseNet进行预测。预测信息包括表示旋转姿态的四元数、表示平移姿态的平移矩阵和属于哪一类的置信度。

为进一步提升算法性能,DenseFusion引入异步位姿迭代优化网络,如图29所示。异步位姿是指位姿残差和预测出的位姿结果不是同步输出的,DenseFusion是先输出预测位姿,再结合迭代优化网络输出的位姿残差来微调预测结果。迭代优化网络的主要思想是先使用预测出的位姿信息对输入的点云进行位姿变换,获得新点云。再将新点云通过PointNet结构提取特征,与颜色特征逐像素融合并提取全局特征信息。然后将全局特征传入位姿残差评估器中预测残差值,使用获得的残差值微调预测出的位姿。之后,再次与输入的点云进行位姿变换获得新的点云,开启下一次迭代优化,直至整个迭代优化过程结束。

图29迭代优化网络算法框图[40]

Fig29blockdiagramofiterativerefinementalgorithm[40]

1.2G2L-Net位姿估计网络

在第四章中本文将介绍一种轻量级的实时位姿估计算法。该算法是基于G2L-Net[41]模型,结合CenterNet关键点检测网络和FPGM剪枝算法得到的。本小节将用于介绍G2L-Net的整体框架和算法思想,使读者对该位姿估计网络有所了解。

G2L-Net是基于RGBD图像的实时位姿估计算法,在LineMod[33]数据集和YCB[32]数据集上实现精度和速度兼优。G2L-Net根据颜色信息和深度信息各自的特性,提出先提取全局特征再回归局部特征的策略。图210是G2L-Net算法的总体框图。G2L-Net可分成四个阶段。第一阶段是获取全局特征,确定点云范围;第二阶段是对粗略的点云进行3D点云分割和平移预测,获得精细的点云和平移信息;第三阶段是对视角向量进行特征提取;第四阶段是预测旋转信息和残差,并使用Kabsch算法获得姿态信息。

图210G2L-Net算法的总体框图[41]

Fig210overallblockdiagramofG2L-Netalgorithm[41]

首先,模型使用YOLOv3[7]检测算法处理RGB图像,确定目标物体的边框。之前的方法是使用预测出的二维边框映射到深度图上,获得深度子图,再结合相机的内参转换为相机坐标系下的3D坐标点,从而

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档