网站大量收购独家精品文档,联系QQ:2885784924

计算机视觉应用--经典的3D目标检测算法 VoxelNet.pptx

计算机视觉应用--经典的3D目标检测算法 VoxelNet.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

经典的3D目标检测算法VoxelNet7.3

7.3经典的3D目标检测算法VoxelNet早期基于体素的方法大都使用一些手工设计的特征来表示体素。手工设计的特征是指在机器学习或计算机视觉任务中,研究者或工程师通过专业知识和经验,以人工方式选择、定义或构建的特征,而非从数据中学习而来的。例如,Vote3D是一种经典的采用手工设计的特征表示的方法。它使用一个固定维度的特征向量来表示体素网格,这些特征包括占用单元内点的分散度、反射率等,然后采用滑动窗口的方式使用SVM分类器判断窗口内是否包含兴趣域(RoI),最后通过投票得出每个窗口的得分。随后出现的3DFCN方法借鉴了Vote3D中的投票算法,并在此基础上构建了卷积网络进行检测,从而简化了体素的特征表示。3DFCN以体素的占用状态对体素进行二进制编码,并使用全卷积神经网络进行3D目标检测。这些手工设计的特征虽然在一些特定的数据集上表现良好,但难以适应复杂多变的真实自动驾驶场景。

随着VoxelNet的出现,体素特征的获取方式发生了根本性的变化,从手工编码过渡到了利用机器学习方法进行编码,带来了性能上的重大突破。VoxelNet引入了体素特征编码层,通过全连接网络(fullyconnectednetwork,FCN)对体素内部的所有点进行编码,再通过最大池化获得逐体素特征。这种新的网络结构为体素特征的学习提供了更灵活的机制,提高了对复杂多样的真实自动驾驶场景的适应能力。VoxelNet的创新性表明,机器学习在体素特征表示方面的应用取得了重大的进展。其网络结构如图7-18所示。7.3经典的3D目标检测算法VoxelNet

7.3经典的3D目标检测算法VoxelNet

VoxelNet将三维点云数据看作一个个的立体块(Voxel)进行处理,同时从图7-18中也可以看到,VoxelNet提出了一种端到端的点云检测框架,可以直接在稀疏的点云上运行,避免了手工设计特征带来的信息瓶颈。总体而言,VoxelNet的网络结构分为三部分,分别为特征学习网络、中间卷积层及RPN层。7.3经典的3D目标检测算法VoxelNet

特征学习网络是VoxelNet中最重要的一个网络,也是创新点最足的一个网络。具体如下。(1)体素划分。将3D空间划分为一个个堆叠的、大小相同的等间隔立体块,如图7-18所示。(2)分组。根据点所在的体素对其进行分组。由于距离、遮挡、对象的相对姿态和非均匀采样等因素,激光雷达获得的点云是稀疏的,并且在整个空间中具有高度可变的点密度。因此,在分组之后,体素将包含不同数量的点。如图7-18所示,体素①中的点云数明显多于体素②、体素④,而体素③中不包含点云。1.特征学习网络7.3经典的3D目标检测算法VoxelNet

(3)随机采样。通常,高清晰度激光雷达获得的点云由10万个点组成。直接处理所有点不仅增加了计算负担,而且整个空间中高度可变的点密度可能会使检测产生偏差。为此,VoxelNet从包含T个以上点的体素中随机采样固定数量的点T。这种采样策略有两个目的,即节省计算量、减少体素之间的点的不平衡。这样不仅减少了采样偏差,还为训练增加了更多的变化。7.3经典的3D目标检测算法VoxelNet

(4)堆叠体素特征编码层。堆叠体素特征编码关键的创新是通过引入多层体素特征编码层来更加有效地学习和表达点云中的复杂结构和特征。图7-18显示了一个体素的分层特征编码的简单过程。下面从VFELayer-1来描述其中的细节。图7-19显示了VFE第一层的体系结构。7.3经典的3D目标检测算法VoxelNet

7.3经典的3D目标检测算法VoxelNet

将最终输出特征作为下一个VFE层的输入,如图7-18所示。这样连续堆叠几次VFE层后,就获得了更丰富的特征表示。最后,使用最大池化获得最后的体素特征。每个体素特征与特定非空体素的空间坐标唯一相关。得到的体素特征列表可以表示为一个稀疏的4D张量,大小为C×D?×H?×W?。C为体素特征的向量维度(也就是图7-18中向量的高度),D?、H?和W?为空间的深度、高度和宽度。虽然点云包含约10万个点,但90%以上的体素通常是空的。将非空体素特征表示为稀疏张量,大大降低了反向传播过程中的内存使用和计算成本。7.3经典的3D目标检测算法VoxelNet

具体实现代码如下:7.3经典的3D目标检测算法VoxelNet

7.3经典的3D目标检测算法VoxelNet

7.3经典的3D目标检测算法VoxelNet

7.3经典的3D目标检测算法VoxelNet由于每个体素中包含的点个数不一样,VoxelNet采用了一种策略,将所有点云数据转换为一种密集的数据结构。这样的转换使得后续

您可能关注的文档

文档评论(0)

小刚 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2025年02月18日上传了教师资格证

1亿VIP精品文档

相关文档