目标检测模型之YOLO系列.pdfVIP

下载本文档

357
0
约4.56千字
约 6页
2023-07-22 发布于山东
举报
版权申诉

目标检测模型之YOLO系列.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目标检测模型之YOLO系列摘要：目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有较长时间深入地研究历史。近些年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。本文广泛调研国内外目标检测方法，主要介绍一阶段目标检测算法——YOLO （You Only Look Once）系列的发展历程。关键词：目标检测，YOLO，发展历程一、研究背景从 2006 年以来，在 Hinton、Bengio、Lecun 等人的引领下，大量深度神经网络的论文被发表，尤其是 2012 年，Hinton 课题组首次参加 ImageNet 图像识别比赛，其通过构建的 CNN 网络AlexNet[1]一举夺魁，从此神经网络开始受到广泛的关注。深度学习利用多层计算模型来学习抽象的数据表示，能够发现大数据中的复杂结构，目前，这项技术已成功地应用在计算机视觉、自然语言处理、语音识别等领域在内的多种模式分类问题上。目标检测的任务是找出图像或视频中感兴趣的物体，同时能够定位出其位置。 Joseph Redmon于 2015 年提出 YOLO 算法[2]是单阶段目标检测算法的开山鼻祖，跟 R.Girshick于 2014 年提出的RCNN[3]系列两阶段目标算法一起引领基于深度学习的目标检测算法的发展。两者的主要区别在于两阶段算法需要先生成候选框（一个有可能包含待检物体的预选框），然后进一步实现目标检测。而一阶段算法会直接在网络中提取特征来预测目标所属的类别和位置。两者优缺点及主要算法汇总如下表 1 所示：表 1 One-stage和 Two-stage 算法比较比 One-stage算法 Two-stage 算法较内容主 YOLO 系列，SSD 系列， RCNN 系列，SPPNet，要算法 Retina-Net，DetectNet， R-FCN SqueezeDet 优速度快；数据处理机制好精度高；共享计算量点缺精度低，小目标的检测效果速度慢点不好从目前的研究来看，部署端一般使用 One-stage 算法，而在 One-stage 算法中应用最多的是具备实时检测能力的YOLO 系列，因此本文着重介绍 YOLO 系列。二、YOLO 的设计思想 YOLO，即神经网络只需要看一次图片，就能输出结果。其检测流程如下： 1. 图像分割：一张输入图像首先被分割成 S x S大小的栅格； 2. 网格单元预测：第一步分割后的图像被分成两个支路来处理，一个支路负责识别目标的类别，另一路负责定位。两路同时进行，最后将预测结果输出； 3. 测试阶段：将条件分类概率与各个框的置信度预测相乘，作为每个框特定于每个类的置信分数。三、YOLO 系列算法的发展历程目标检测算法YOLO 系列发展至今主要包含了v1、v2、v3、v4 和 v5 以及针对每个版本的改进系列。 3.1 YOLOv1 之前 Two-stage 方法如 R-CNN 把检测问题分成两部分，先生成候选区域，再用分类器对区域分类，多阶段训练导致不易优化。而Joseph Redmon 提出的 YOLOv1[2]，主要贡献在于：开发出实时高性能目标检测的 one-stage 检测框架，只需要将图像一次性输入到网络中即可预测出图像中目标的位置和类别。 3.2 YOLOv2 针对 v1 存在的检测目标的准确度不高、定位不准很多目标找不到的两个显著不足，YOLOv2[4]进行了改进。主要的改进之处在于：（1）借鉴RCNN 系列，不直接预测框的大小，改为预测基于栅格的偏移值。除此之外，直接预测位置会导致神经网络在一开始训练时不稳定，使用偏移量会使得训练过程更加稳定，性能指标提升了 5%左右；（2）把分割输入图像为7*7 个栅格改为 13*13，每个栅格有 5 个锚框（anchor）。 3.