- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
01??BEV感知算法概念?
Bird’s-Eye-View,鸟瞰图(俯视图)。BEV感知算法存在许多的优势。
首先,BEV视图存在遮挡小的优点,由于视觉的透视效应,现实世界的物体在2D图像中很容易受到其他物体的遮挡,因此,传统的基于2D的感知方式只能感知可见的目标,对于被遮挡的部分算法将无能为力。
而在BEV空间内,时序信息可以很容易地被融合,算法可以基于先验知识,对被遮挡的区域进行预测,“脑补”出被遮挡的区域是否有物体。虽然“脑补”出来的物体固然有“想象”的成分,但对后续的控制模块来说,还是有不少益处。
此外,BEV感知算法的尺度变化小,将尺度相对一致的数据输入到网络中,可以得到更好的感知结果。
02??BEV感知算法数据集介绍
2.1kitti-360数据集
kitti-360是一个包含丰富感官信息和完整注释的大规模数据集。我们记录了德国卡尔斯鲁厄的几个郊区,在73.7公里的驾驶距离内,对应超过32万张图像和10万个激光扫描。我们用粗糙的边界基元对静态和动态的三维场景元素进行注释,并将这些信息转移到图像领域,从而为三维点云和二维图像提供了密集的语义和实例注释。
为了收集数据,旅行车两边各配备了一个180°的鱼眼相机,前面一个90°的透视立体相机(基线60厘米)。此外,在车顶上安装了一个VelodyneHDL-64E和一个SICKLMS200激光扫描装置,采用推杆式配置。这个装置与KITTI使用的装置类似,只是由于额外的鱼眼相机和推帚式激光扫描仪,获得了一个完整的360°视野,而KITTI只提供透视图像和Velodyne激光扫描,垂直视野为26.8°。此外,系统还配备了一个IMU/GPS定位系统。采集车的传感器布置如图所示。
图1Kitti-360数据集采集车
2.2nuScenes数据集
nuScenes是第一个提供自动汽车全套传感器数据的大型数据集,包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU。与kitti数据集相比,其包含的对象注释多了7倍多。采集车的传感器布置如图所示。
图2nuScenes数据集采集车模型
03??BEV感知算法分类
基于输入数据,将BEV感知研究主要分为三个部分——BEVCamera、BEVLiDAR和BEVFusion。下图描述了BEV感知家族的概况。具体来说,BEVCamera表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割;BEVLiDAR描述了点云输入的检测或分割任务;BEVFusion描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。
图3自动驾驶的基本感知算法
如图所示,将自主驾驶的基本感知算法(分类、检测、分割、跟踪等)分为三个级别,其中BEV感知的概念位于在中间。基于传感器输入层、基本任务和产品场景的不同组合,某种BEV感知算法可以相应表明。例如,M2BEV和BEVFormer属于视觉BEV方向,用于执行包括3D目标检测和BEV地图分割在内的多项任务。BEVFusion在BEV空间设计了一种融合策略,同时从摄像机和激光雷达输入执行3D检测和跟踪。
BEVCamrea中的代表之作是BEVFormer。BEVFormer通过提取环视相机采集到的图像特征,并将提取的环视特征通过模型学习的方式转换到BEV空间(模型去学习如何将特征从图像坐标系转换到BEV坐标系),从而实现3D目标检测和地图分割任务,并取得了SOTA的效果。
3.1BEVFormer的Pipeline:
1)Backbone+Neck(ResNet-101-DCN+FPN)提取环视图像的多尺度特征;
2)论文提出的Encoder模块(包括TemporalSelf-Attention模块和SpatialCross-Attention模块)完成环视图像特征向BEV特征的建模;
3)类似DeformableDETR的Decoder模块完成3D目标检测的分类和定位任务;
4)正负样本的定义(采用Transformer中常用的匈牙利匹配算法,FocalLoss+L1Loss的总损失和最小);
5)损失的计算(FocalLoss分类损失+L1Loss回归损失);
6)反向传播,更新网络模型参数;
图4BEVFormer框架图
BEVFusion算法离不开BEVLiDAR和BEVCamera算法,通常使用一个fusion模块进行点云和图像特征的融合。其中BEVFusion是其中的代表之作。
3.2BEVFusion的Pipeline:
1)给定不同的感知输入,首先应用特定于模态的编码器来提取其特
您可能关注的文档
- 光学系统集成.docx
- 机器视觉主要硬件参数详解.docx
- 机器人运动学中的非完整约束与运动模型推导.docx
- 计算摄影学基石:相机成像原理.docx
- 如何优化深度学习模型.docx
- 机器视觉在轮胎检测中的应用.docx
- 基于Transformer的多模态BEV融合方案.docx
- 这些图像传感器如何选?先get这五大要点√.docx
- “分类”“聚类”傻傻分不清楚.docx
- 从神经网络开始讲图像分类基础.docx
- 个人房产测绘合同(2024版).docx
- Unit 6【刷语法】unless, as soon as, so…that 引导的状语从句(重点语法提升练)-八年级英语下册单元模块满分必刷题(人教版).docx
- 2023六年级下册数学期末测试卷带答案(名师推荐).docx
- 安全健康桶装水供应商务协议2024版B版.docx
- 商水县阳安建设发展有限公司招聘笔试题库2025.pdf
- 人教版五年级下学期数学期末卷及参考答案【名师推荐】.docx
- 小学三年级数学应用题50道精品【名师系列】.docx
- 人教版四年级下册数学期末测试卷含完整答案【各地真题】.docx
- 人教版小学数学五年级下册期末测试卷及参考答案(培优b卷).docx
- 人教版五年级下学期数学期末测试卷含答案【完整版】.docx
文档评论(0)