自动驾驶场景通标志检测技术优化方案.pdfVIP

  • 0
  • 0
  • 约2.16千字
  • 约 2页
  • 2026-01-18 发布于北京
  • 举报

自动驾驶场景通标志检测技术优化方案.pdf

初赛所使用的方法:

将训练集切成780*720的两个半图,经统计,训练集中纵坐标530–720范围内

groundtruth数量太少(仅占0.39%),故将此部分丢弃。在切割后的训练集上训练FasterR-

CNNVGG16,图像scale放大到1365*927(1.75x)。VGG16网络默认降采样率为16,考

虑到交通标志尺寸整体较小,为了避免降采样率过大无法检出小物体,移除了整个conv5层,将

conv4_3的输出直接送入RPN与ROIpooling中。另外,考虑到交通标志大小及长宽比差异

很大,对anchor进行了修改,基础大小为20,一共有0.33,0.5,1,2,3五种比例和1,2,4,

8,12,18,23七种scale。

复赛时做了如下尝试:

1.考虑到训练集数量的增加,降低了learningrate。观察验证集上的结果,精确度受到了

很大影响,故仍然保持每5万次降低0.1的默认值。

2.复赛图像中很多为行车记录仪拍摄的连续帧,有许多图像场景非常类似,导致验证集难

以反映训练效果。针对此种情况,使用了AlexNet对图像提取特征,通过比较特征之间

的距离去重。但由于噪声很大,没有成功。

3.由于训练集数据量大,考虑到复赛时间紧迫,用R-FCN取代了FasterR-CNN,网络结

构由VGG16更改为ResNet101,相比于之前有更快的训练速度和更好的收敛性,在验

证集上获得了一定的提升。

4.FasterR-CNN及R-FCN的RPN会针对框的大小进行NMS,大小小于阈值的框会被直

接丢弃,阈值默认为16*图像放大倍数。考虑到交通标志的大小,将阈值固定为16。

5.模型出框个数为平均每张图45–50个,为了增加recall,将RPNNMS后的出框个数从

300增加到了400,效果不显著。

6.对结果进行可视化分析,精确度有待改善,且模型存在undertrain的问题。对5万,10

万,15万以及最终20万次迭代的模型在训练集上计算mAP,证明了收敛不充分的问

题。加入初赛训练集的图像,继续finetune6万次,有明显改善。

7.ResNet101仍然存在一些弊端:网络太深,收敛性仍然不好,且由于显存限制,无法将

图像进一步放大。因此更换了ResNet50,将初赛及复赛训练集合并作为新的训练集训

练,将图像放大到2.15x,进行multi-scaletraining,scale分别为1x,1.5x,2.15x,有明

显改善。

8.考虑到许多box的标注准确性不高,修改了classificationloss,从默认的1增加为2和

4。试图通过增大其权重改善P-R曲线头部的精确度,效果不佳。在这一步的2:1时得

到了最后复赛的最高成绩,我们本来准备交一个1:1的进行对照实验,时间有点来不

及。

(以下为在1-8期间的其他尝试)

9.尝试了PVANET-RFCN,因为inception结构的存在,对于multi-scale的目标检测可能

会有作用,而且pvanet在保持了深度的同时,还有着体量轻的优点,总共600MFLOPS,能

直接将图放大2-3倍。训练速度也非常快,可是最后相对resnet101未涨点,map接近

10.Refine,将输出时的NMS设为0,放出rfcn的所有框,并去掉每个框的分数,把这些框

送进一个VGG-RCNN继续训练,在训练的时候同时进行classification和regression,但

是结果没有提升。

11.我们取了当时测试集上结果的模型,在训练集上得到一个结果,和其对应的mAP,

recall和precision值,我们在这个训练集上的结果上面做reranking的尝试,其中包括

1,对边框的直接缩放,平移,这个方法在训练集上能提升,不过在测试集上容易过拟

合。2,对这些框训练一个二分类的深度模型,实验表明这个步骤可以将训练集上的mAP

提升到接近1,即将正确(与训练集的标记IOU0.5)的框的score都排到前面。但是这

个方法在测试集上的效果不太好,我们猜测可能是RPN出来的框,本身的recall就不

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档