目标检测对比.PDF

下载文档 降价啦

110
0
约1.16万字
约 9页
2019-02-04 发布于天津
举报
版权申诉
保障服务

目标检测对比.PDF

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目标检测对比

常用目标检测算法对比 1、目标检测算法简述目标检测（object detection）：指的是发现并且检测出图像中的物体，目标检测一般包含两个任务  物体识别：确定图像中物体的类别；  位置确定：确定图像中物体的候选框架位置（一般为矩形框）。目标检测从某种程度上就是两个任务的集成，则最简单的实现思路也就是将上述两个单任务算法进行集成，也就提出了 R-CNN 算法，在R-CNN 的基础上进行不同程度的优化，演化出fast-RCNN。之后在不断的速度和精度的优化上，出现了faster-RCNN、yolo 以及SSD 算法。 2、two-stage model 2.1 R-CNN RCNN，在这个算法中神经网络实际上就是一个特征提取器，作者用selective search 的方法提取了一定数量（2000 个）region proposal，然后对region proposal 做卷积操作，将fc7 这一层的特征提取出来用于分类和坐标回归，这里分类用的还不是softmax 而是SVM 。这个算法的贡献主要是提出了一种有效的特征利用方式，后续很多人在工程实践中都是用的fc7 层的特征来做基于faster RCNN 的应用。算法步骤:  获取输入的原始图片。  使用选择性搜索算法（selective search ）评估相邻图像之间的相似度，把相似度高的进行合并，并对合并后的区块打分，选出感兴趣区域的候选框，也就是子图。这一步大约需要选出2000 个子图。  分别对子图使用卷积神经网络（ Alexnet 、ZFnet、VGG ），进行卷积-relu-池化以及全连接等步骤，提取特征。这一步基本就是物体识别的范畴了。  对提取的特征进行物体分类（svm ），保留分类准确率高的区块（非极大值抑制），以作为最终的物体定位区块。  使用回归器精细修正候选框位置。创新点：  借助CNN 良好的特征提取和分类性能，通过Region Proposal 方法实现目标检测问题的转化。存在的问题：  每一个候选框依次进入CNN 网络，存在冗余提取特征和冗余存储的问题。  候选框由传统的selective search 算法完成，速度比较慢。  各个模块独立训练。无法实现end-to-end 。 2.2 SPP-Net 创新点：  在R-CNN 的基础上做出改进，将Region Proposal 的位置信息放在卷积层之后，这样使得图像可以在一次计算的基础上整体提取特征，减少RCNN 带来的最大问题——冗余计算和冗余存储  加入了金字塔池化，不在使用裁剪和缩放归一化图片大小存在的问题：  和RCNN 一样，训练过程相互之间仍然给是分离的，候选框提取、卷积特征、SVM 分类、以及最后的bounding box 回归都是独立训练。  依然使用ss 算法生成region proposal，耗时较长  由于加入了金字塔池化，卷积层不能fine tune ，不能反向传播 2.3 fast-RCNN fast RCNN 将除region proposal 提取以外的部分都用一个网络来实现，与RCNN 不同的是： 1. 提出多任务Loss，加入候选框映射功能，他的分类和坐标回归的loss 一起通过反向传播来更新网络参数。 2. 它在提取feature 时并不会把每个region proposal 都放入提取，而是将整幅图提取特征后，用坐标映射的方式提取feature ，这样有两个好处：  快，因为一张图片只走一次网络；  feature 的特征受感受野的影响，能融合相邻的背景的特征，这样“看”得更远一些。 3. 提出ROI pooling 池化层结构，解决了候选框子图必须将图像裁剪缩放到相同尺寸大小的问题。由于CNN 网络的输入图像尺寸必须是固定的某一个大小（否则全连接时没法计算），故R-CNN 中对大小形状不同的候选框，进行了裁剪和缩放，使得他们达到相同的尺寸。这个操作既浪费时间，又容易导致图像信息丢失和形变。fast R-CNN 在全连接层之前插入了ROI pooling 层，从而不需要对