CN117333749A 一种多模态混合的自动驾驶统一3d检测与跟踪方法（浙江大学）.docxVIP

下载本文档

0
0
约1.07万字
约 17页
2026-03-17 发布于重庆
举报

CN117333749A 一种多模态混合的自动驾驶统一3d检测与跟踪方法（浙江大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117333749A(43)申请公布日2024.01.02

(21)申请号202311382428.2

(22)申请日2023.10.24

(71)申请人浙江大学

地址310058浙江省杭州市西湖区余杭塘

路866号

(72)发明人丁勇孙瑀程华元刘琳琳牛乐乐

(74)专利代理机构杭州求是专利事务所有限公

司33200专利代理师杨亚男

GO6NGO6N

3/0455(2023.01)

3/0464(2023.01)

(51)Int.CI.

GO6VGO6VGO6VGO6T

10/80(2022.01)

10/82(2022.01)20/64(2022.01)7/246(2017.01)

权利要求书2页说明书6页附图1页

(54)发明名称

一种多模态混合的自动驾驶统一3D检测与跟踪方法

(57)摘要

CN117333749A本发明公开了一种多模态混合的自动驾驶统一3D检测与跟踪方法，属于自动驾驶技术领域。本发明主要包括以下步骤：1.不同模态下的BEV特征的生成；2.自适应融合的BEV特征的生成；3.单帧3D目标检测结果的生成；4.单帧3D目标跟踪结果的生成；5.帧与帧之间目标跟踪结果的迭代。基于本发明所提出的统一3D检测与跟踪方法可以将不同的传感器数据融合为统一的BEV特征，将3D目标检测与3D目标跟踪统一为一个整体。相较于使用独立的目标检测与目标跟踪模型，统一模型可以提高实时性、精度和鲁棒性，获得自动驾驶系统性能和安全性的提升。同时还可

CN117333749A

T码语四

T码

CN117333749A权利要求书1/2页

1.一种多模态混合的自动驾驶统一3D检测与跟踪方法，其特征在于，包括以下步骤：

步骤(1).输入来自自动驾驶系统的激光雷达和摄像头采集的多模态数据，分别提取不同模态下的BEV特征；

步骤(2).通过步骤(1)中获得的不同模态下的BEV特征，获得融合不同模态下的BEV特征自适应融合权重，生成自适应融合的BEV特征；

步骤(3).通过步骤(2)获得的自适应融合的BEV特征，采用Transformer编码器进行编码，得到当前帧的编码特征；同时，将自适应融合的BEV特征经过候选区域生成网络完成当前帧的3D目标检测任务，生成当前帧的一系列3D候选框；

步骤(4).将当前帧的一系列3D候选框与经过处理的上一帧的目标跟踪结果进行拼接，将拼接结果与当前帧的编码特征共同输入到Transformer解码器，获得当前帧的初始目标跟踪结果；

步骤(5).利用步骤(4)获取的当前帧的初始目标跟踪结果，生成经过处理的当前帧的目标跟踪结果，通过帧与帧之间不断迭代，最终输出整个多帧输入的目标跟踪结果。

2.根据权利要求1所述的多模态混合的自动驾驶统一3D检测与跟踪方法，其特征在于，所述的步骤(1)中输入来自自动驾驶系统的激光雷达和摄像头采集的多模态数据，分别被各自的BEV生成网络转换到一致的BEV视角，生成的不同模态下的BEV特征具有相同的空间分辨率和相同特征维度。

3.根据权利要求1所述的多模态混合的自动驾驶统一3D检测与跟踪方法，其特征在于，所述的步骤(2)包括：

步骤(2.1).由激光雷达模态的BEV特征生成对应的激光雷达BEV特征的自适应融合权重；

步骤(2.2).由摄像头模态的BEV特征生成对应的摄像头BEV特征的自适应融合权重；

步骤(2.3).由激光雷达模态和摄像头模态融合的BEV特征生成对应的激光雷达和摄像头融合BEV特征的自适应融合权重；

步骤(2.4).将上述步骤(2.1)至步骤(2.3)生成的三个自适应融合权重进行数值归一化；

步骤(2.5).通过三种模态的BEV特征以及对应的归一化后的自适应融合权重，获得自适应融合的BEV特征。

4.根据权利要求3所述的多模态混合的自动驾驶统一3D检测与跟踪方法，其特征在于，所述步骤(2.5)具体为：将三种模态的BEV特征分别与其对应的归一化后的自适应融合权重相乘，得到三组与原始BEV特征尺寸相同的BEV特征；对三组BEV特征进行拼接，拼接得到原始BEV特征维度3倍的新BEV特征，再利用MLP网络将新BEV特征的维度转换为与原始BEV特征维度相同的自适应融合的BEV特征。

CN117333749A 一种多模态混合的自动驾驶统一3d检测与跟踪方法（浙江大学）.docxVIP