目标检测基础知识 - 综合初学者指南.docx

下载文档

1
0
约4.51千字
约 12页
2025-03-29 发布于湖南
举报
版权申诉
保障服务

目标检测基础知识 - 综合初学者指南.docx

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如今，使用最新的驾驶辅助技术（如车道检测、盲点、交通信号灯等）驾驶汽车已经很常见。

如果我们退后一步来了解幕后发生的事情，我们的数据科学家很快就会意识到系统不仅对对象进行分类，而且还在场景中（实时）定位它们。

这些功能是正在运行的物体检测系统的主要例子。驾驶辅助技术、工业机器人和安全系统都利用对象检测模型来检测感兴趣的对象。对象检测是一项先进的计算机视觉任务，涉及对象的定位和分类。

在本文中，我们将更深入地研究对象检测任务的细节。我们将了解与之相关的各种概念，以帮助我们理解新颖的架构（在后续文章中介绍）。

我们将涵盖从迁移学习的角度理解对象检测模型所需的关键方面和概念。

关键概念和构建模块

目标检测由两个主要子任务组成：定位和分类。识别对象的分类很容易理解。但是我们如何定义对象的本地化呢？让我们介绍一些关键概念：

BoundingBoxes边界框

对于对象检测任务，我们使用矩形框来识别给定对象的位置。这个规则框被称为边界框，用于对象的定位。通常，输入图像的左上角被设置为原点或(0,0)。矩形边界框是借助左上角和右下角顶点的x和y坐标来定义的。让我们直观地理解这一点。

图1(a)描绘了一个示例图像，其原点设置在左上角。

图1：(a)包含不同对象的示例图像，(b)每个对象的边界框，并注释了左上角和右下角顶点，(c.)识别边界框的另一种方法是使用其顶部-左坐标以及宽度和高度参数。

图1(b)显示了每个已识别的对象及其相应的边界框。值得注意的是，边界框用相对于图像原点的左上角和右下角坐标进行注释。

通过4个值，我们可以唯一地标识一个边界框。识别边界框的另一种方法是使用左上角坐标及其宽度和高度值。图1(c)显示了这种识别边界框的替代方法。

不同的解决方案可能使用不同的方法，这主要取决于一种方法相对于另一种方法的偏好。

除了类标签之外，对象检测模型还需要每个训练样本的每个对象的边界框坐标。类似地，对象检测模型在推理阶段生成边界框坐标以及每个识别对象的类标签。

AnchorBoxes锚盒

每个对象检测模型都会扫描大量可能的区域，以识别/定位任何给定图像的对象。

在训练过程中，模型学习确定哪些扫描区域是感兴趣的，并调整这些区域的坐标以匹配地面实况边界框。不同的模型可能会以不同的方式生成这些感兴趣区域。

然而，最流行和最广泛使用的方法是基于锚框的。对于给定图像中的每个像素，会生成多个不同大小和纵横比（宽度与高度的比率）的边界框。这些边界框称为锚框。图2说明了给定图像中特定像素的不同锚框。

图2：给定图像的特定像素（以红色突出显示）的不同锚框

锚框尺寸由两个参数控制，比例表示为s??(0,1]，纵横比表示为r0。如图2所示，对于高度和宽度为h?w的图像以及s和的具体值r，可以生成多个anchorbox，通常我们使用下面的公式来获取anchorbox的尺寸：

其中w?和h?分别是锚框的宽度和高度。锚框的数量和尺寸要么是预先定义的，要么是在训练过程中由模型选取的。

为了正确看待事物，模型会为每个像素生成多个锚框，并随着训练的进行，学习将它们与地面真实边界框进行调整/匹配。

边界框和锚框是理解整个目标检测任务的关键概念。在我们详细了解此类架构如何工作之前，让我们首先了解评估此类模型性能的方式。

以下是使用的一些重要评估指标：

交集与并集(IOU)

对象检测模型通常会生成许多锚框，然后调整这些锚框以匹配地面实况边界框。但我们如何知道比赛何时发生或比赛的效果如何？

杰卡德指数是用于确定两个集合之间相似性的度量。在物体检测中，JaccardIndex也称为IntersectionOverUnion或IOU。其给出如下：

其中B?是真实边界框，B?是预测边界框。简单来说，它是0到1之间的分数，由预测边界框和真实边界框之间的重叠面积与联合面积之比确定。重叠度越高，得分就越高。

接近1的分数表示接近完美的匹配。图3显示了样本图像的预测边界框和真实边界框之间重叠的不同场景。

图3：并交交集(IOU)是预测边界框与真实边界框之间的匹配程度的度量。重叠度越高，得分就越好。

根据问题陈述和数据集的复杂性，设置不同的IOU阈值来确定应考虑哪些预测边界框。例如，基于MS-COCO的对象检测挑战使用0.5的IOU阈值将预测的边界框视为真阳性。

平均精度(MAP)

精度和召回率是用于了解机器学习环境中分类器性能的典型指标。以下公式定义了这些指标：

其中，TP、FP和FN分别代表TruePositive、FalsePositive和FalseNegative结果。精度和召回率通常一起使用来生成精度-召回率曲线，以获得可靠的性

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

目标检测基础知识 - 综合初学者指南.docx