自动驾驶场景通标志检测技术优化方案.pdfVIP

下载本文档

0
0
约2.16千字
约 2页
2026-01-18 发布于北京
举报

自动驾驶场景通标志检测技术优化方案.pdf

初赛所使用的方法：

将训练集切成780*720的两个半图，经统计，训练集中纵坐标530–720范围内

groundtruth数量太少（仅占0.39%），故将此部分丢弃。在切割后的训练集上训练FasterR-

CNNVGG16，图像scale放大到1365*927（1.75x）。VGG16网络默认降采样率为16，考

虑到交通标志尺寸整体较小，为了避免降采样率过大无法检出小物体，移除了整个conv5层，将

conv4_3的输出直接送入RPN与ROIpooling中。另外，考虑到交通标志大小及长宽比差异

很大，对anchor进行了修改，基础大小为20，一共有0.33,0.5,1,2,3五种比例和1,2,4,

8,12,18,23七种scale。

复赛时做了如下尝试：

1.考虑到训练集数量的增加，降低了learningrate。观察验证集上的结果，精确度受到了

很大影响，故仍然保持每5万次降低0.1的默认值。

2.复赛图像中很多为行车记录仪拍摄的连续帧，有许多图像场景非常类似，导致验证集难

以反映训练效果。针对此种情况，使用了AlexNet对图像提取特征，通过比较特征之间

的距离去重。但由于噪声很大，没有成功。

3.由于训练集数据量大，考虑到复赛时间紧迫，用R-FCN取代了FasterR-CNN，网络结

构由VGG16更改为ResNet101，相比于之前有更快的训练速度和更好的收敛性，在验

证集上获得了一定的提升。

4.FasterR-CNN及R-FCN的RPN会针对框的大小进行NMS，大小小于阈值的框会被直

接丢弃，阈值默认为16*图像放大倍数。考虑到交通标志的大小，将阈值固定为16。

5.模型出框个数为平均每张图45–50个，为了增加recall，将RPNNMS后的出框个数从

300增加到了400，效果不显著。

6.对结果进行可视化分析，精确度有待改善，且模型存在undertrain的问题。对5万，10

万，15万以及最终20万次迭代的模型在训练集上计算mAP，证明了收敛不充分的问

题。加入初赛训练集的图像，继续finetune6万次，有明显改善。

7.ResNet101仍然存在一些弊端：网络太深，收敛性仍然不好，且由于显存限制，无法将

图像进一步放大。因此更换了ResNet50，将初赛及复赛训练集合并作为新的训练集训

练，将图像放大到2.15x，进行multi-scaletraining，scale分别为1x,1.5x,2.15x，有明

显改善。

8.考虑到许多box的标注准确性不高，修改了classificationloss，从默认的1增加为2和

4。试图通过增大其权重改善P-R曲线头部的精确度，效果不佳。在这一步的2:1时得

到了最后复赛的最高成绩，我们本来准备交一个1：1的进行对照实验，时间有点来不

及。

（以下为在1-8期间的其他尝试）

9.尝试了PVANET-RFCN，因为inception结构的存在，对于multi-scale的目标检测可能

会有作用，而且pvanet在保持了深度的同时，还有着体量轻的优点，总共600MFLOPS，能

直接将图放大2-3倍。训练速度也非常快，可是最后相对resnet101未涨点，map接近

10.Refine，将输出时的NMS设为0，放出rfcn的所有框，并去掉每个框的分数，把这些框

送进一个VGG-RCNN继续训练，在训练的时候同时进行classification和regression，但

是结果没有提升。

11.我们取了当时测试集上结果的模型，在训练集上得到一个结果，和其对应的mAP，

recall和precision值，我们在这个训练集上的结果上面做reranking的尝试，其中包括

1，对边框的直接缩放，平移，这个方法在训练集上能提升，不过在测试集上容易过拟

合。2，对这些框训练一个二分类的深度模型，实验表明这个步骤可以将训练集上的mAP

提升到接近1，即将正确（与训练集的标记IOU0.5）的框的score都排到前面。但是这

个方法在测试集上的效果不太好，我们猜测可能是RPN出来的框，本身的recall就不

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自动驾驶场景通标志检测技术优化方案.pdfVIP