一文读懂YOLOV5与YOLOV4_新能源技术.docVIP

下载本文档

19
0
约7.6千字
约 33页
2021-09-18 发布于浙江
举报
版权申诉

一文读懂YOLOV5与YOLOV4_新能源技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

YOLOV5与YOLOV4 YOLO之父Joseph Redmon在今年年初宣布退出计算机视觉的研究的时候，很多人都以为目标检测神器YOLO系列就此终结。然而在4月23日，继任者YOLO V4却悄无声息地来了。Alexey Bochkovskiy发表了一篇名为YOLOV4: Optimal Speed and Accuracy of Object Detection的文章。YOLO V4是YOLO系列一个重大的更新，其在COCO数据集上的平均精度(AP)和帧率精度(FPS)分别提高了10% 和12%，并得到了Joseph Redmon的官方认可，被认为是当前最强的实时对象检测模型之一。正当计算机视觉的从业者们正在努力研究YOLO V4的时候，万万没想到，有牛人不服。6月25日，Ultralytics发布了YOLOV5 的第一个正式版本，其性能与YOLO V4不相伯仲，同样也是现今最先进的对象检测技术，并在推理速度上是目前最强。从上图的结果可以看出，YOLO V5确实在对象检测方面的表现非常出色，尤其是YOLO V5s 模型140FPS的推理速度非常惊艳。 YOLO V5和V4集中出现让很多人都感到疑惑，一是YOLO V5真的有资格能被称作新一代YOLO吗？二是YOLO V5的性能与V4相比究竟如何，两者有啥区别及相似之处？在本文中我会详细介绍YOLO V5和YOLO V4的原理，技术区别及相似之处，最后会从多方面对比两者的性能。我在我之前的文章中介绍了YOLO V3模型，YOLO是一种快速紧凑的开源对象检测模型，与其它网络相比，同等尺寸下性能更强，并且具有很不错的稳定性，是第一个可以预测对象的类别和边界框的端对端神经网络。 YOLO V3原始模型是基于Darknet网络。Ultralytics将YOLO V3架构迁移到了Pytorch平台上，并对其自行研究和改进。Ultralytics-yolov3 代码库是目前已开源YOLO V3 Pytorch的最佳实现。 YOLO网络主要由三个主要组件组成。 1）Backbone?-在不同图像细粒度上聚合并形成图像特征的卷积神经网络。 2）Neck：一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。 3）Head：对图像特征进行预测，生成边界框和并预测类别。下图是对象检测网络的通用架构：我们可以在上述每个主要组件上使用不同的技术或者组合不同的方案来实现属于自己的最佳对象检测框架。实际上YOLO V5的模型架构是与V4非常相近的。在下文中，我会从下面几个方面对比YOLO V5和V4，并简要阐述它们各自新技术的特点，对比两者的区别和相似之处，评判两者的性能，并做最后总结。 Data Augmentation Auto Learning Bounding Box Anchors Backbone Neck Head Activation Function Optimization Function Benchmarks Data Augmentation 图像增强是从现有的训练数据中创建新的训练样本。我们不可能为每一个现实世界场景捕捉一个图像，因此我们需要调整现有的训练数据以推广到其他情况，从而允许模型适应更广泛的情况。无论是YOLO V5还是V4，多样化的先进数据增强技术是最大限度地利用数据集，使对象检测框架取得性能突破的关键。通过一系列图像增强技术步骤，可以在不增加推理时延的情况下提高模型的性能。 YOLO V4数据增强 YOLO V4使用了上图中多种数据增强技术的组合，对于单一图片，除了经典的几何畸变与光照畸变外，还创新地使用了图像遮挡(Random Erase，Cutout，Hide and Seek，Grid Mask ，MixUp)技术，对于多图组合，作者混合使用了CutMix与Mosaic?技术。除此之外，作者还使用了Self-Adversarial Training (SAT)来进行数据增强。在下文中我将简单介绍以上数据增强技术。图像遮挡 Random Erase：用随机值或训练集的平均像素值替换图像的区域。 Cutout：仅对 CNN 第一层的输入使用剪切方块Mask。 Hide and Seek：将图像分割成一个由 SxS 图像补丁组成的网格，根据概率设置随机隐藏一些补丁，从而让模型学习整个对象的样子，而不是单独一块，比如不单独依赖动物的脸做识别。 Grid Mask：将图像的区域隐藏在网格中，作用也是为了让模型学习对象的整个组成部分。 MixUp：图像对及其标签的凸面叠加。多图组合 Cutmix: 将另一个图像中的剪切部分粘贴到增强图像。图像的剪切迫使模型学会根据大量的特征进行预测。 Mosaic data augmentation: 在Cu