目标检测与物体识别.pptxVIP

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;什么是目标检测与物体识别;;挑战与难点;挑战与难点;;早期的方法;机器学习:数据驱动

收集数据集:图像及对应标签

训练相关分类器

在新的图像中测试分类器;记忆训练集所有数据;数据集:CIFAR10

10类样本

5000张训练图像

1000张测试图像

;采用距离度量来比较图片相似性;K值-近邻算法

利用最近的k个样本点进行投票

;K值-近邻算法:距离度量;图像识别几乎不采用K值-近邻算法

测试速度过慢

像素级的距离度量无意义;第二类分类器:

线性分类(LinearClassification);举例:假设图像仅有4个像素,任务为三分类;第三类分类器:

神经网络(NeuralNetwork);线性分类器;激活函数(非线性函数);;性能评价(evaluation);Sortbyconfidence;...;AveragePrecision(AP)

0%表示性能最差

100%表示性能最好

mAP:

计算meanAP在所有的类别上;常用数据集;滑动窗(slidingwindow)

计算每个滑动窗的检测得分

简单但运算开销大;SelectiveSearch;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;利用selectivesearch产生候选框

第一个利用CNN实现目标检测的模型;FastR-CNN;与R-CNN的区别:

损失函数使用了多任务损失函数(multi-taskloss),将boundingbox回归直接加入到CNN网络中训练;与R-CNN的区别:

最后一层卷积层后加了一个ROIpoolinglayer;;可以简单地看做“区域生成网络(RPN)+FastR-CNN“

用RPN代替FastR-CNN中的selectivesearch。;流程

输入测试图像;

将整张图片输入CNN,进行特征提取;

用RPN生成候选框(proposals),每张图片生成300候选框;

把候选框映射到CNN最后一层卷积featuremap上;

通过RoIpooling层使每个RoI生成固定尺寸的featuremap.

利用SoftmaxLoss(探测分类概率)和SmoothL1Loss(探测边框回归)对分类概率和边框回归(Boundingboxregression)联合训练.

;区域生成网络(RPN)

对于特征图中的每一个位置,考虑9个可能的候选框:三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}。这些候选框称为anchors。;区域生成网络(RPN)

基本设想是:在提取好的特征图上,对所有可能的候选框进行判别。;区域生成网络(RPN):窗口分类和位置精修

分类层(cls_score)输出每一个位置上,9个anchor属于前景和背景的概率;

窗口回归层???bbox_pred)输出每一个位置上,9个anchor对应候选框应该平移缩放的参数。;Twostagemodel

FasterR-CNN

Onestagemodel

YOLO;人类视觉系统快速且精准,只需瞄一眼即可识别图像中物品及其位置。

YOLO将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题,只需一眼即可检测目标类别和位置。;将目标检测的流程统一为单个神经网络。

该神经网络采用整个图像信息来预测目标的boundingboxes的同时识别目标的类别,实现端到端实时目标检测任务。;首先将图像分为S×S的格子(gridcell)。

如果一个目标的中心落入格子,该格子就负责检测该目标。;每一个格子(gridcell)预测boundingboxes(B)和该boxes的置信值(confidencescore)。

置信值代表box包含一个目标的置信度。;?;每个boundingbox包含:x,y,w,h和confidence。

(x,y)代表与格子相关的box的中心.(w,h)为与全图信息相关的box的宽和高。confidence代表预测boxes的IoU和goundtruth;?;?;在PASCALVOC数据集上评价时,我们采用S=7,B=2,C=20(该数据集包含20个类别),最终预测结果为7×7×30的tensor。

;网络结构

模型采用卷积神经网络结构。开始的卷积层提取图像特征,全连接层预测输出概率。模型结构类似于GoogleNet

;Loss函数定义

YOLO使用均方和误差作为loss函数来优化模型参数,即网络输出的S*S*(B*5+C)维向量与真实图像的对

文档评论(0)

8d758 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档