- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepLabV3+网络的基本原理8.2
8.2DeepLabV3+网络的基本原理8.2.1DeepLab系列语义分割网络发展概述DeepLab系列网络是谷歌团队在FCN理念的基础上提出并逐步发展的语义分割网络模型。从2015年到2019年,DeepLab系列网络模型共发布了4个版本,分别称为V1、V2、V3和V3+。这4次迭代借鉴了近年来图像分类的创新成果,以改进语义分割,并启发了该领域的许多其他研究工作。DeepLab系列模型通过不断改进网络架构以实现良好的分割效果,其理念主要是如何更有效地利用空洞卷积并结合多尺度信息,该系列取得了一系列辉煌的成就,并见证了深度卷积神经网络(DCNN)在语义分割方面的发展。
DeepLabV1是结合了深度卷积神经网络和概率图模型的方法。在实验中发现DCNN做语义分割时存在精准度不够的问题,尤其是在涉及边界细节和物体边缘时。这是因为DCNN在处理图像时,池化操作和卷积层的堆叠可能会导致空间信息的损失,从而影响精确的像素级别的分割。DeepLabV1解决这一问题的方法是将DCNN层输出的特征响应和全连接条件随机场(CRF)结合。CRF是一种概率图模型,有助于在图像级别对像素进行更加一致的分类。通过将DCNN层输出的特征响应和CRF结合,DeepLabV1能够更好地考虑像素之间的关系,从而提高语义分割的精度,特别是在物体边缘和细节部分。DeepLabV1方法实质上可以分为两步,第一步仍然采用FCN得到粗糙的特征图并通过插值得到原图像大小,然后第二步借用全连接条件随机场作为后处理,对FCN得到的结果进一步进行细节上的改善。其网络结构如图8-6所示。1.DeepLabV18.2DeepLabV3+网络的基本原理
8.2DeepLabV3+网络的基本原理
除此之外,从DeepLabV1开始,DeepLab系列网络还创新性地将空洞卷积应用到DCNN中。在图像分类网络中,因为池化等降采样处理的原因,图像的分辨率会随着网络深度的增加而下降。然而语义分割是一个密集预测任务,如何保证输出分辨率的同时,深层的网络有足够的感受野,成为了一个关键的问题。而空洞卷积解决了这个问题,它能够在不损失图像分辨率的同时扩大网络的感受野。空洞卷积的示意图如图8-7所示,图8-7(a)至8-7(c)分别对应卷积核大小为3×3且空洞率(rate)为{1,2,4}的空洞卷积,可以看出对应的感受野依次为3×3、7×7、15×15。8.2DeepLabV3+网络的基本原理小知识迁移学习是将预训练的深度神经网络模型应用于新任务的过程,可以节省训练时间和计算资源。
8.2DeepLabV3+网络的基本原理
继DeepLabV1之后,谷歌又推出了DeepLabV2,其最大的改动是增加了受空间金字塔池化(SPP)启发得来的空洞空间金字塔池化(ASPP)模块。图像金字塔是图像中多尺度表达的一种,主要用于图像分割,是一种提取多分辨率图像及对图像进行解释的有效且概念简单的结构。图像金字塔最初用于机器视觉和图像压缩,将图像以不同的分辨率以金字塔形状进行排列,从而形成图像的金字塔。图像金字塔通过梯次向下采样获得,直至达到某个终止条件才停止采样。在图像金字塔中,金字塔的顶层图像分辨率最低,底层图像分辨率最高。众所周知,多尺度特征的应用对于网络的性能有着显著的提升。前面介绍过感受野的概念,感受野是指特征图上的一个点所对应原图区域的大小,那么如果有多个感受野,通过融合多种感受野的特征信息,就能构造一种多尺度模型,于是DeepLabV2通过将空洞卷积与金字塔池化融合,提出一种空洞空间金字塔池化(ASPP)模块,ASPP模块通常由几个并行的空洞卷积层组成,每个层具有不同的采样率,以便在不同尺度上捕获特征。这些特征被汇总并融合,以提高语义分割的性能,并能够处理不同尺度的对象和场景,如图8-8所示。2.DeepLabV28.2DeepLabV3+网络的基本原理
8.2DeepLabV3+网络的基本原理
DeepLabV3对空洞卷积重新思考,在DeepLabV2基础上,舍弃全连接条件随机场(CRF)后处理步骤,将ResNet作为主干特征提取网络,在残差块中引入空洞卷积以构建串行的空洞卷积模块,并对ASPP模块进行改进,进一步提升了分割效果。其网络结构如图8-9所示。在旧的ASPP模块中,在空洞率很大的情况下,由于图像边界效应,空洞卷积会出现“权值退化”问题,导致不能捕捉图像的大范围信息,于是DeepLabV3在ASPP模块中额外添加全局平均池化(ImagePooling),以获得全局信息。改进后的ASPP模块可以同时获取多尺度特征和全局内容信息的图像层特征。3.DeepLabV38.2DeepLab
您可能关注的文档
- 计算机视觉应用--PyTorch常用模块及库.pptx
- 计算机视觉应用--PyTorch环境配置与安装.pptx
- 计算机视觉应用--PyTorch框架简介.pptx
- 计算机视觉应用--PyTorch中的 Tensor.pptx
- 计算机视觉应用--ResNet的基本原理.pptx
- 计算机视觉应用--常用的3D目标检测数据集及其评价指标.pptx
- 计算机视觉应用--单阶段式2D目标检测网络 YOLOv5.pptx
- 计算机视觉应用--基于深度学习的3D目标检测方法.pptx
- 计算机视觉应用--经典的3D目标检测算法 VoxelNet.pptx
- 计算机视觉应用--两阶段式2D目标检测算法 Faster R-CNN.pptx
文档评论(0)