技术解析之一文看懂MASK R-CNN.docx

下载文档

2
0
约3.47千字
约 7页
2025-03-29 发布于湖南
举报
版权申诉
保障服务

技术解析之一文看懂MASK R-CNN.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

计算机视觉之MASKR-CNN浅析

计算机视觉是关于研究机器视觉能力的学科，在CV领域，其主要的任务包括图像分类及定位、目标检测、目标跟踪、语义分割以及实例分割等。本文所介绍的MaskR-CNN是由KaimingHe提出的实例分割模型，通过在FasterR-CNN的基础上添加一个分支网络，在实现目标检测的同时，完成目标像素的分割。

实例分割的基本思路就是目标检测+语义分割：先用目标检测方法将图像中的不同实例框出，再用语义分割方法在不同候选区域内进行逐像素标记。

一、目标检测

目标检测（ObjectDetection）指的是发现并且检测出图像中的物体，它一般包含两个部分；一是物体识别，即确定图像中物体的类别；二是位置确定，即确定图像中物体的候选框位置。

物体识别算法主要分为传统算法和卷积神经网络（ConvolutionalNeuralNetworks,CNN）。传统算法的思路是用一些特殊的图像特征或特征点来表征每一类物体的特点，从而达到图像的匹配和识别任务。这类特征一般通过精巧的设计能够对图像具有一定的尺度不变性、旋转不变形，使得对于同样的物体，能够在不同的尺度和角度情况下实现识别任务。CNN主要应用于图像分类，它相对于传统方法对物体识别的精度有了极大的改善，也在物体识别领域开始得到广泛的应用，其通过不断提取更高层次也更抽象的特征，然后采用神经网络的方式实现物体的分类，从而达到物体识别的效果。

利用神经网络做目标检测任务时，输入图像中通常不止于一种物体，并且位置也不确定，因此需要从图像产生一系列可能包含目标物体的候选区域（候选框），进而再进行物体识别。选择性搜索（SelectiveSearch）是一种选取候选框的传统算法，其基本思想是首先通过简单的聚类生成区域集合，然后根据定义的相似度不断合并相邻区域构成新的候选框。本质上是一种基于在原始聚类后的区域集合上，依照邻域的相似度，从小到大的进行滑动窗口的处理。

二、分割

1.语义分割（SemanticSegmentation）：对图像中逐像素进行分类。

2.实例分割（InstanceSegmentation）：目标检测和语义分割的结合。相对目标检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割需要标注出图上同一物体的不同个体（狗1，狗2…）对图像中的对象进行检测，并对检测到的对象进行分割。

3.全景分割(PanopticSegmentation）：对图像中的所有物体包括背景都要进行检测和分割。

图1：几种分割的区别

三、相关目标检测算法的发展历程

1.??R-CNN

R-CNN的意思就是RegionbasedCNN，主要思路就是根据一张图像，提取多个区域，再将每个区域输入CNN来进行特征的提取。因此R-CNN就可以分为候选区域（RegionProposals）,抽取特征（FeatureExtraction）两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。

R-CNN的目标是借助边界框(BoundingBox)获取图像，并正确地识别图像中的主要对象；它运用选择性搜索给出边界框或者候选区域，选择性搜索通过不同尺寸的窗口在图像中进行滑动，然后通过纹理、颜色、亮度等特征将不同滑窗聚合，减少候选区域的数量，降低模型的复杂度。

生成一组候选区域之后，R-CNN将这些区域变换为标准的方形尺寸并采用改进后的AlexNet进行特征提取。在CNN的最终层，R-CNN增加了支持向量机(SupportVectorMachine,SVM)，用于简单判断区域中是否包含目标以及它是什么。

R-CNN效果非常好，但是效率非常低，训练困难主要的原因一是需要对每个图像的每个候选区域进行CNN(AlexNet)前向传播(ForwardPass)，每个图像需要大约2000次前向传播，存在大量重复计算；二是该方法必须分别训练三个不同的模型—CNN图像特征提取模型、SVM分类模型、线性边框回归模型,训练困难而且中间保存特征向量需占用大量的空间，这使得模型很难训练。

图2：R-CNN模型

2.?FastR-CNN

2015年，R-CNN的作者RossGirshick为解决R-CNN效率低、训练难的问题，提出了FastR-CNN的方法。FastR-CNN相对于R-CNN主要改进的一个方面在于，不再是对每一个候选区域进行重复卷积操作，而是对于整张图像先提取了泛化特征，这样子减少了大量的计算（R-CNN中对于每一个候选区域做卷积会有很多重复计算），并在CNN中引入兴趣区池化层（Regionofinterestpooling,RoIPooling）,这样图片首先进行选择性搜索生成候选区域，同时在CNN中对整张图片进行特征提取