- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目标检测对比
常用目标检测算法对比
1、目标检测算法简述
目标检测(object detection):指的是发现并且检测出图像中的物体,目标检测一般包含两个任务
物体识别:确定图像中物体的类别;
位置确定:确定图像中物体的候选框架位置(一般为矩形框)。
目标检测从某种程度上就是两个任务的集成,则最简单的实现思路也就是将上述两个单
任务算法进行集成,也就提出了 R-CNN 算法,在R-CNN 的基础上进行不同程度的优化,演
化出fast-RCNN。之后在不断的速度和精度的优化上,出现了faster-RCNN、yolo 以及SSD 算
法。
2、two-stage model
2.1 R-CNN
RCNN,在这个算法中神经网络实际上就是一个特征提取器,作者用selective search 的
方法提取了一定数量(2000 个)region proposal,然后对region proposal 做卷积操作,将fc7
这一层的特征提取出来用于分类和坐标回归,这里分类用的还不是softmax 而是SVM 。这个
算法的贡献主要是提出了一种有效的特征利用方式,后续很多人在工程实践中都是用的fc7
层的特征来做基于faster RCNN 的应用。
算法步骤:
获取输入的原始图片。
使用选择性搜索算法(selective search )评估相邻图像之间的相似度,把相似度高的进
行合并,并对合并后的区块打分,选出感兴趣区域的候选框,也就是子图。这一步大约
需要选出2000 个子图。
分别对子图使用卷积神经网络 (
Alexnet 、ZFnet、VGG ),进行卷积-relu-池化以及全连
接等步骤,提取特征。这一步基本就是物体识别的范畴了。
对提取的特征进行物体分类 (svm ),保留分类准确率高的区块 (非极大值抑制),以
作为最终的物体定位区块。
使用回归器精细修正候选框位置。
创新点:
借助CNN 良好的特征提取和分类性能,通过Region Proposal 方法实现目标检测问题的
转化。
存在的问题:
每一个候选框依次进入CNN 网络,存在冗余提取特征和冗余存储的问题。
候选框由传统的selective search 算法完成,速度比较慢。
各个模块独立训练。无法实现end-to-end 。
2.2 SPP-Net
创新点:
在R-CNN 的基础上做出改进,将Region Proposal 的位置信息放在卷积层之后,这样使
得图像可以在一次计算的基础上整体提取特征,减少RCNN 带来的最大问题——冗余计
算和冗余存储
加入了金字塔池化,不在使用裁剪和缩放归一化图片大小
存在的问题:
和RCNN 一样,训练过程相互之间仍然给是分离的,候选框提取、卷积特征、SVM 分
类、以及最后的bounding box 回归都是独立训练。
依然使用ss 算法生成region proposal,耗时较长
由于加入了金字塔池化,卷积层不能fine tune ,不能反向传播
2.3 fast-RCNN
fast RCNN 将除region proposal 提取以外的部分都用一个网络来实现,与RCNN 不同的是:
1. 提出多任务Loss,加入候选框映射功能,他的分类和坐标回归的loss 一起通过反向传播
来更新网络参数。
2. 它在提取feature 时并不会把每个region proposal 都放入提取,而是将整幅图提取特征
后,用坐标映射的方式提取feature ,这样有两个好处:
快,因为一张图片只走一次网络;
feature 的特征受感受野的影响,能融合相邻的背景的特征,这样“看”得更远一些。
3. 提出ROI pooling 池化层结构,解决了候选框子图必须将图像裁剪缩放到相同尺寸大小
的问题。由于CNN 网络的输入图像尺寸必须是固定的某一个大小(否则全连接时没法
计算),故R-CNN 中对大小形状不同的候选框,进行了裁剪和缩放,使得他们达到相同
的尺寸。这个操作既浪费时间,又容易导致图像信息丢失和形变。fast R-CNN 在全连接
层之前插入了ROI pooling 层,从而不需要对
文档评论(0)