目标检测与物体识别.pptxVIP

下载本文档

0
0
约2.84千字
约 57页
2024-10-25 发布于江苏
举报
版权申诉

目标检测与物体识别.pptx

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;什么是目标检测与物体识别;;挑战与难点;挑战与难点;;早期的方法;机器学习：数据驱动

收集数据集：图像及对应标签

训练相关分类器

在新的图像中测试分类器;记忆训练集所有数据;数据集：CIFAR10

10类样本

5000张训练图像

1000张测试图像

;采用距离度量来比较图片相似性;K值-近邻算法

利用最近的k个样本点进行投票

;K值-近邻算法：距离度量;图像识别几乎不采用K值-近邻算法

测试速度过慢

像素级的距离度量无意义;第二类分类器：

线性分类（LinearClassification）;举例：假设图像仅有4个像素，任务为三分类;第三类分类器：

神经网络（NeuralNetwork）;线性分类器;激活函数（非线性函数）;;性能评价（evaluation）;Sortbyconfidence;...;AveragePrecision(AP)

0%表示性能最差

100%表示性能最好

mAP：

计算meanAP在所有的类别上;常用数据集;滑动窗（slidingwindow)

计算每个滑动窗的检测得分

简单但运算开销大;SelectiveSearch;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;利用selectivesearch产生候选框

第一个利用CNN实现目标检测的模型;FastR-CNN;与R-CNN的区别：

损失函数使用了多任务损失函数(multi-taskloss)，将boundingbox回归直接加入到CNN网络中训练;与R-CNN的区别：

最后一层卷积层后加了一个ROIpoolinglayer；;可以简单地看做“区域生成网络(RPN)+FastR-CNN“

用RPN代替FastR-CNN中的selectivesearch。;流程

输入测试图像；

将整张图片输入CNN，进行特征提取；

用RPN生成候选框(proposals)，每张图片生成300候选框；

把候选框映射到CNN最后一层卷积featuremap上；

通过RoIpooling层使每个RoI生成固定尺寸的featuremap.

利用SoftmaxLoss(探测分类概率)和SmoothL1Loss(探测边框回归)对分类概率和边框回归(Boundingboxregression)联合训练.

;区域生成网络(RPN)

对于特征图中的每一个位置，考虑9个可能的候选框：三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}。这些候选框称为anchors。;区域生成网络(RPN)

基本设想是：在提取好的特征图上，对所有可能的候选框进行判别。;区域生成网络(RPN):窗口分类和位置精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率；

窗口回归层???bbox_pred）输出每一个位置上，9个anchor对应候选框应该平移缩放的参数。;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;人类视觉系统快速且精准，只需瞄一眼即可识别图像中物品及其位置。

YOLO将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题，只需一眼即可检测目标类别和位置。;将目标检测的流程统一为单个神经网络。

该神经网络采用整个图像信息来预测目标的boundingboxes的同时识别目标的类别，实现端到端实时目标检测任务。;首先将图像分为S×S的格子（gridcell）。

如果一个目标的中心落入格子，该格子就负责检测该目标。;每一个格子（gridcell）预测boundingboxes（B）和该boxes的置信值（confidencescore）。

置信值代表box包含一个目标的置信度。;?;每个boundingbox包含:x,y,w,h和confidence。

(x,y)代表与格子相关的box的中心.(w,h)为与全图信息相关的box的宽和高。confidence代表预测boxes的IoU和goundtruth;?;?;在PASCALVOC数据集上评价时，我们采用S=7,B=2，C=20（该数据集包含20个类别），最终预测结果为7×7×30的tensor。

;网络结构

模型采用卷积神经网络结构。开始的卷积层提取图像特征，全连接层预测输出概率。模型结构类似于GoogleNet

;Loss函数定义

YOLO使用均方和误差作为loss函数来优化模型参数，即网络输出的S*S*(B*5+C)维向量与真实图像的对

您可能关注的文档

文档评论（0）

8d758 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

目标检测与物体识别.pptxVIP