- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
如今,使用最新的驾驶辅助技术(如车道检测、盲点、交通信号灯等)驾驶汽车已经很常见。
如果我们退后一步来了解幕后发生的事情,我们的数据科学家很快就会意识到系统不仅对对象进行分类,而且还在场景中(实时)定位它们。
这些功能是正在运行的物体检测系统的主要例子。驾驶辅助技术、工业机器人和安全系统都利用对象检测模型来检测感兴趣的对象。对象检测是一项先进的计算机视觉任务,涉及对象的定位和分类。
在本文中,我们将更深入地研究对象检测任务的细节。我们将了解与之相关的各种概念,以帮助我们理解新颖的架构(在后续文章中介绍)。
我们将涵盖从迁移学习的角度理解对象检测模型所需的关键方面和概念。
关键概念和构建模块
目标检测由两个主要子任务组成:定位和分类。识别对象的分类很容易理解。但是我们如何定义对象的本地化呢?让我们介绍一些关键概念:
BoundingBoxes边界框
对于对象检测任务,我们使用矩形框来识别给定对象的位置。这个规则框被称为边界框,用于对象的定位。通常,输入图像的左上角被设置为原点或(0,0)。矩形边界框是借助左上角和右下角顶点的x和y坐标来定义的。让我们直观地理解这一点。
图1(a)描绘了一个示例图像,其原点设置在左上角。
图1:(a)包含不同对象的示例图像,(b)每个对象的边界框,并注释了左上角和右下角顶点,(c.)识别边界框的另一种方法是使用其顶部-左坐标以及宽度和高度参数。
图1(b)显示了每个已识别的对象及其相应的边界框。值得注意的是,边界框用相对于图像原点的左上角和右下角坐标进行注释。
通过4个值,我们可以唯一地标识一个边界框。识别边界框的另一种方法是使用左上角坐标及其宽度和高度值。图1(c)显示了这种识别边界框的替代方法。
不同的解决方案可能使用不同的方法,这主要取决于一种方法相对于另一种方法的偏好。
除了类标签之外,对象检测模型还需要每个训练样本的每个对象的边界框坐标。类似地,对象检测模型在推理阶段生成边界框坐标以及每个识别对象的类标签。
AnchorBoxes锚盒
每个对象检测模型都会扫描大量可能的区域,以识别/定位任何给定图像的对象。
在训练过程中,模型学习确定哪些扫描区域是感兴趣的,并调整这些区域的坐标以匹配地面实况边界框。不同的模型可能会以不同的方式生成这些感兴趣区域。
然而,最流行和最广泛使用的方法是基于锚框的。对于给定图像中的每个像素,会生成多个不同大小和纵横比(宽度与高度的比率)的边界框。这些边界框称为锚框。图2说明了给定图像中特定像素的不同锚框。
图2:给定图像的特定像素(以红色突出显示)的不同锚框
锚框尺寸由两个参数控制,比例表示为s??(0,1],纵横比表示为r0。如图2所示,对于高度和宽度为h?w的图像以及s和的具体值r,可以生成多个anchorbox,通常我们使用下面的公式来获取anchorbox的尺寸:
其中w?和h?分别是锚框的宽度和高度。锚框的数量和尺寸要么是预先定义的,要么是在训练过程中由模型选取的。
为了正确看待事物,模型会为每个像素生成多个锚框,并随着训练的进行,学习将它们与地面真实边界框进行调整/匹配。
边界框和锚框是理解整个目标检测任务的关键概念。在我们详细了解此类架构如何工作之前,让我们首先了解评估此类模型性能的方式。
以下是使用的一些重要评估指标:
交集与并集(IOU)
对象检测模型通常会生成许多锚框,然后调整这些锚框以匹配地面实况边界框。但我们如何知道比赛何时发生或比赛的效果如何?
杰卡德指数是用于确定两个集合之间相似性的度量。在物体检测中,JaccardIndex也称为IntersectionOverUnion或IOU。其给出如下:
其中B?是真实边界框,B?是预测边界框。简单来说,它是0到1之间的分数,由预测边界框和真实边界框之间的重叠面积与联合面积之比确定。重叠度越高,得分就越高。
接近1的分数表示接近完美的匹配。图3显示了样本图像的预测边界框和真实边界框之间重叠的不同场景。
图3:并交交集(IOU)是预测边界框与真实边界框之间的匹配程度的度量。重叠度越高,得分就越好。
根据问题陈述和数据集的复杂性,设置不同的IOU阈值来确定应考虑哪些预测边界框。例如,基于MS-COCO的对象检测挑战使用0.5的IOU阈值将预测的边界框视为真阳性。
平均精度(MAP)
精度和召回率是用于了解机器学习环境中分类器性能的典型指标。以下公式定义了这些指标:
其中,TP、FP和FN分别代表TruePositive、FalsePositive和FalseNegative结果。精度和召回率通常一起使用来生成精度-召回率曲线,以获得可靠的性
您可能关注的文档
- 光学系统集成.docx
- 机器视觉主要硬件参数详解.docx
- 机器人运动学中的非完整约束与运动模型推导.docx
- 计算摄影学基石:相机成像原理.docx
- 如何优化深度学习模型.docx
- 机器视觉在轮胎检测中的应用.docx
- 基于Transformer的多模态BEV融合方案.docx
- 这些图像传感器如何选?先get这五大要点√.docx
- “分类”“聚类”傻傻分不清楚.docx
- 从神经网络开始讲图像分类基础.docx
- 河北省南宫市事业单位考试(综合管理类A类)职业能力倾向测验知识点试题必考题.docx
- 河北省南宫市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库推荐.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验强化训练试题集附答案.docx
- 河北省南宫市事业单位考试(综合管理类A类)职业能力倾向测验知识点试题最新.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验重点难点精练试题及答案1套.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验重点难点精练试题及答案1套.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验知识点试题及答案1套.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验重点难点精练试题及答案1套.docx
- 河北省南宫市事业单位考试(医疗卫生类E类)职业能力倾向测验强化训练试题集推荐.docx
- 2025至2030年中国三维立体扫描仪数据监测研究报告.docx
最近下载
- vitamix-料理机食谱其他--29种.pdf
- 口腔正畸学第九章 常见错牙合畸形矫治-深覆牙合【29页】.pptx VIP
- 河南省 唐河县志.pdf
- 国有企业总经理办公会议事规则.pdf VIP
- 学校热泵热水工程方案(3篇).docx
- 2025年行政职业能力测试题库 .pdf VIP
- 9.2.2 用坐标表示平移 课件(共51张PPT)数学人教版七年级下册.pptx VIP
- 住房项目设计采购施工总承包工程(EPC)投标方案技术标.docx
- J B-T 8521.1-2007 编织吊索 安全性 第一部分:一般用途合成纤维扁平吊装带.pdf VIP
- 《基本分析与技术分析相结合的A股投资策略案例报告》6200字.doc
文档评论(0)