1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R-CNN系列

;;;基本概念;selective search Warp;区域提名:通过Selective Search从原始图片提取2000个左右区域候选框; 区域归一化:把所有侯选框缩放成固定大小(227×227)Warp; 通过CNN网络提取特征(在特征层的基础上添加两个全连接层); 使用SVM结合NMS(非极大值抑制)获得区域边框(BBox),最后用DPM中类似的线性回归方法精修(Refine)边框位置。;Selective Search for Object Recognition;图像分割;Object proposal 转换(Warp);原文;Supervised pre-training迁移学习;CNN训练及特征提取;NIPS, 2012,by A. Krizhevsky et al.;训练SVM分类器;获取每个类别的Bounding box(BBox);NMS:非极大值抑制;IOU交并比;位置精修;回归器? 对每一类目标,使用一个线性回归器进行精修。 正则项 λ=10000。? 输入:CNN网络pool5层的4096维特征 输出:xy方向的缩放和平移W=[x,y,w,h]。 训练样本: 判定为本类的候选框中,和真值重叠面积大于0.6的候选框。 其中*可以是:x,y,w,h,(x,y)是目标中心相对位置, w,h是变换后的宽度和高度缩放比例的对数值 ;;R-CNN的缺点;SPP-Net: Motivation;FC layer need a fixed-lenground truthh input while conv layer can be adapted to arbitrary input size.事实上,CNN的卷积层不需要固定尺寸的图像,而全连接层是需要固定大小输入的 提出了SPP层放到卷积层的后面 SPPNet将任意大小的图像池化生成固定长度的图像表示;SPP-Net: Training for Detection(1);SPP-Net: Training for Detection(2);SPP-Net: Testing for Detection;SPP是BOW的扩展,将图像从精细空间划分到粗糙空间,之后将局部特征聚集。在CNN成为主流之前,SPP在检测和分类的应用比较广泛。 SPP的优点:1)任意尺寸输入,固定大小输出;2)层多;3)可对任意尺度提取的特征进行池化。;Speed: 64x faster than R-CNN using one scale, and 24x faster using five-scale paramid. mAP: +1.2 mAP vs R-CNN;2. 训练花费过大的硬盘开销和时间;Fast R-CNN;Fast R-CNN: Joint Training Framework;SPP-Net image pyramids (multi scale);边框回归: A smooth L1 loss which is less sensitive to outliers than L2 loss;Fast R-CNN: Other tricks;Fast R-CNN 技巧;网络末端同步训练的分类和位置调整,提升准确度 使用多尺度的图像金字塔,性能几乎没有提高 倍增训练数据,能够有2%-3%的准确度提升 网络直接输出各类概率(softmax),比SVM分类器性能略好 更多候选窗不能提升性能;1. Region proposal耗时(提region proposal 2~3s,而提特征分类只需0.32s),大部分时间用来提Region proposal;K个建议框是目标/非目标的估计概率;每个卷积特征映射大约2000个anchor;第41页 | 共25页;缺点: 1.无法达到实时 2.预先获取候选区域,在对每个proposal分类计算量比较大;?(1) 给个一个输入图像,首先将图像划分成SxS的网格 ?(2) 对于每个网格,我们都预测B个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率) ?(3) 根据上一步可以预测出SxSxB个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可。;YOLO;YOLO可以每秒处理45张图像;只有当某个网格中有object的时候才对classification error进行惩罚。 只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档