- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;什么是目标检测与物体识别;;挑战与难点;挑战与难点;;早期的方法;机器学习:数据驱动
收集数据集:图像及对应标签
训练相关分类器
在新的图像中测试分类器;记忆训练集所有数据;数据集:CIFAR10
10类样本
5000张训练图像
1000张测试图像
;采用距离度量来比较图片相似性;K值-近邻算法
利用最近的k个样本点进行投票
;K值-近邻算法:距离度量;图像识别几乎不采用K值-近邻算法
测试速度过慢
像素级的距离度量无意义;第二类分类器:
线性分类(LinearClassification);举例:假设图像仅有4个像素,任务为三分类;第三类分类器:
神经网络(NeuralNetwork);线性分类器;激活函数(非线性函数);;性能评价(evaluation);Sortbyconfidence;...;AveragePrecision(AP)
0%表示性能最差
100%表示性能最好
mAP:
计算meanAP在所有的类别上;常用数据集;滑动窗(slidingwindow)
计算每个滑动窗的检测得分
简单但运算开销大;SelectiveSearch;Twostagemodel
FasterR-CNN
Onestagemodel
YOLO;Twostagemodel
FasterR-CNN
Onestagemodel
YOLO;利用selectivesearch产生候选框
第一个利用CNN实现目标检测的模型;FastR-CNN;与R-CNN的区别:
损失函数使用了多任务损失函数(multi-taskloss),将boundingbox回归直接加入到CNN网络中训练;与R-CNN的区别:
最后一层卷积层后加了一个ROIpoolinglayer;;可以简单地看做“区域生成网络(RPN)+FastR-CNN“
用RPN代替FastR-CNN中的selectivesearch。;流程
输入测试图像;
将整张图片输入CNN,进行特征提取;
用RPN生成候选框(proposals),每张图片生成300候选框;
把候选框映射到CNN最后一层卷积featuremap上;
通过RoIpooling层使每个RoI生成固定尺寸的featuremap.
利用SoftmaxLoss(探测分类概率)和SmoothL1Loss(探测边框回归)对分类概率和边框回归(Boundingboxregression)联合训练.
;区域生成网络(RPN)
对于特征图中的每一个位置,考虑9个可能的候选框:三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1}。这些候选框称为anchors。;区域生成网络(RPN)
基本设想是:在提取好的特征图上,对所有可能的候选框进行判别。;区域生成网络(RPN):窗口分类和位置精修
分类层(cls_score)输出每一个位置上,9个anchor属于前景和背景的概率;
窗口回归层???bbox_pred)输出每一个位置上,9个anchor对应候选框应该平移缩放的参数。;Twostagemodel
FasterR-CNN
Onestagemodel
YOLO;人类视觉系统快速且精准,只需瞄一眼即可识别图像中物品及其位置。
YOLO将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题,只需一眼即可检测目标类别和位置。;将目标检测的流程统一为单个神经网络。
该神经网络采用整个图像信息来预测目标的boundingboxes的同时识别目标的类别,实现端到端实时目标检测任务。;首先将图像分为S×S的格子(gridcell)。
如果一个目标的中心落入格子,该格子就负责检测该目标。;每一个格子(gridcell)预测boundingboxes(B)和该boxes的置信值(confidencescore)。
置信值代表box包含一个目标的置信度。;?;每个boundingbox包含:x,y,w,h和confidence。
(x,y)代表与格子相关的box的中心.(w,h)为与全图信息相关的box的宽和高。confidence代表预测boxes的IoU和goundtruth;?;?;在PASCALVOC数据集上评价时,我们采用S=7,B=2,C=20(该数据集包含20个类别),最终预测结果为7×7×30的tensor。
;网络结构
模型采用卷积神经网络结构。开始的卷积层提取图像特征,全连接层预测输出概率。模型结构类似于GoogleNet
;Loss函数定义
YOLO使用均方和误差作为loss函数来优化模型参数,即网络输出的S*S*(B*5+C)维向量与真实图像的对
您可能关注的文档
最近下载
- 美军城市作战指南(URBAN OPERATIONS)2022版.doc
- GB∕T 39587-2020 静电防护管理通用要求.pdf
- (新闽教版)英语六年级上册全册知识详解及练习.pdf VIP
- GOTS&OCS管理手册.docx
- 2024年辽宁省盘锦市中考语文试卷(含答案解析).docx
- 2023年上海高考英语真题作文深度解读&高三名校精彩范文6篇 .docx
- 某某大型煤矿火区治理方案安全措施汇编【稀缺煤矿管理资料】.pdf
- PWC-国家开发银行数据管控交流沟通材料-201408.pptx VIP
- 重症监护室(ICU)急危重症抢救流程.doc VIP
- 浙江省杭州市余杭区2020-2021学年四年级(上)期中语文试卷.doc VIP
文档评论(0)