2025《One-stage目标检测算法概述》1300字.docxVIP

2025《One-stage目标检测算法概述》1300字.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

-PAGEIII-

One-stage目标检测算法概述

One-stage目标检测算法的基本思想是不生成候选区域,直接进行物体的定位预测和类别回归,去掉了Two-stage算法中的RPN网络设计,仅使用一个主干网络完成目标检测的任务。这种思路的检测精度相对Two-stage算法而言有所不足,但胜在速度方面的提升,更适用于对实时性要求较高的检测场景。

One-stage算法的代表为SSD和YOLO系列,包括YOLOv1、YOLOv2和YOLOv3。本节将对SSD算法原理的核心思想进行介绍,并对本选题搭建无人机目标检测模型时使用的同属于One-stage的YOLOv3算法的关键原理进行详细说明。由于YOLO系列后续推出的算法与前期的版本在思路上有着较大的差异,故不在此处进行介绍。

1.1SSD

SSD(SingleShotMultiBoxDetector)REF_Re\r\h[7]是一种目前流行的One-stage目标检测算法。其主要思路是将原始图像经过多个卷积层转换生成特征映射图以用于定位和检测目标,并通过多尺度融合的方式,采用不同的长宽比对图片的不同位置进行均匀的密集抽样以匹配目标,并利用卷积神经网络直接进行分类与回归,整个过程只需一步即可完成,因此能大幅提高检测速度。其基础网络采用了VCG-16的网络架构,算法的整体结构框架如图2-7所示。

图2-7SSDR-CNN算法结构框架

1.2YOLO

YOLO(YouOnlyLookOnce)系列REF_Re\r\h[4-REF_Re\r\h6]抛弃了传统目标检测算法中“候选区域定位+分类”两步处理的思想,提出了仅用一个CNN(ConvolutionalNeuralNetwork,卷积神经网络)直接完成边界框位置的预测及分类算法,大大提高了计算速度,适用于需要完成实时检测的场景。本次毕设使用了YOLOv3算法作为核心进行模型搭建,其网络结构如图2-8所示:

图2-8YOLOv3网络结构图

如图所示,YOLOv3算法的网络使用全卷积层搭建,在前向传播过程中,通过改变卷积核的步长实现张量的尺寸变换,没有使用池化层和全连接层。其主体Darknet-53使用了多个残差模块,通过使生成的特征与输入叠加的结果作为新的输入进入下一层,来加强网络的学习能力,同时减小梯度爆炸的风险。

为了加强对小目标检测的精确度,在将图像划分为S×S的网格后进行训练和检测时,YOLO进行了52×52、26×26和13×13三个尺度的输出,分别对应小型、中型和大型目标,最终通过上采样和尺度融合的方式,进行不同尺度的特征图检测,来增强网络对于格类目标的适应能力。

下面详细介绍网络的核心功能模块。

1.感受野的计算

感受野用于接收CNN结构中某个区域的特征向量,而目标检测中anchor(锚定框)的确定正是根据感受野完成的。在YOLOv3算法中,计算锚定框的方式是从最后往前,即先计算最深层在前一层上的感受野,再逐层传递,直到第一层。其公式如式2-3所示,其中,RF

R

式(2-3)

2.边界框预测

YOLO算法的边界框bbox是通过预测边框的宽度、高度作为聚类中心的偏移量确定的,如图2-9所示,其中,cx、cy为网格左上角的坐标,偏移量,tx,ty为预测的坐标偏移值,tw,th是尺度缩放,bx、b

图2-9边界框预测示意图及公式REF_Re\r\h[6]

在其网络结构中,使用sigmoid函数预测边框相对于滤波器应用位置的中心坐标,将坐标偏移量压缩到[0,1]区间内,以确保目标中心处于执行预测的网格单元中,防止偏移过多。通过学习偏移量来进行调整,去逐渐靠近原始给定的groundtruth,达到训练的目的。

3.损失函数

YOLOv3的损失函数如下式2-4所示:【记得替换】

式(2-4)

其中,公式第一行及第二行为回归框loss,采用二值交叉熵进行计算;第三行及第四行为置信度loss,采用交叉熵进行计算;最后一行为分类loss,采用交叉熵进行计算。

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档