融合深度图像的卷积神经网络语义分割方法.docVIP

下载本文档

16
0
约1.27万字
约 19页
2021-03-20 发布于江苏
举报
版权申诉

融合深度图像的卷积神经网络语义分割方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

融合深度图像的卷积神经网络语义分割方法导语：?该文提出了一种基于深度学习框架的图像语义分割方法，通过使用由相对深度点对标注训练的网络模型，实现了基于彩色图像的深度图像预测，并将其与原彩色图像共同输入到包含带孔卷积的全卷积神经网络中。摘要：该文提出了一种基于深度学习框架的图像语义分割方法，通过使用由相对深度点对标注训练的网络模型，实现了基于彩色图像的深度图像预测，并将其与原彩色图像共同输入到包含带孔卷积的全卷积神经网络中。考虑到彩色图像与深度图像作为物体不同的属性表征，在特征图上用合并连接操作而非传统的相加操作对其进行融合，为后续卷积层提供特征图输入时保持了两种表征的差异。在两个数据集上的实验结果表明，该法可以有效提升语义分割的性能。关键词：语义分割；深度学习；深度图像中图分类号 TG 156 文献标志码 A 1、引言图像的语义分割是计算机视觉中的一个基础问题，作为图像理解的重要一环，在自动驾驶系统、地理信息系统、医疗影像分析及机械臂物体抓取等实际应用中都有关键作用。其中，地理信息系统中的卫星遥感图像可使用语义分割的方法自动识别道路、河流、建筑物、植物等。在无人驾驶系统中，车载摄像头和激光雷达采集的图像，经语义分割可以发现道路前方的行人、车辆等，以辅助驾驶和避让。在医疗影像分析领域，语义分割主要用于肿瘤图像分割和龋齿诊断等。图像的语义分割任务是指为一幅输入图像的每个像素分配一个语义类别，从而完成像素级别的分类。传统的语义分割主要使用手工设计的特征和支持向量机、概率图模型等方法。随着深度卷积神经网络在计算机视觉任务中刷新多项记录，包括图像分类[1-3]、物体检测[4-6]等，深度学习的方法也在语义分割任务中被广泛使用[7-9]。卷积神经网络本身具有一定的对局部图像变换的不变性，可以很好地解决图像分类问题。但在语义分割任务中，分类的同时还需要得到精确的位置，这与局部图像变换的不变性相矛盾。在典型的图像分类模型中，多层网络组成了一个从局部到全局的金字塔结构。其中，顶层的特征图分辨率最低，虽然它包含全局的语义信息，但却无法完成精确的定位。全卷积神经网络[7]利用端到端、像素到像素的方法进行训练，对于顶层特征图定位不够精细的问题，采用跳跃结构综合了浅层精细的表观信息和深层粗糙的语义信息。 Chen 等[8]使用了另一种方案，直接在网络结构中减少了下采样的操作以得到更高的分辨率，并且利用了带孔的卷积，在不增加网络参数数量的前提下增大卷积核的感受野，从而获取更多关于图像像素的上下文信息。在信号处理领域，类似的方法最初用于非抽样小波变换的高效计算[10]。此外，还使用全连接的条件随机场方法[11]对卷积神经网络的输出结果进行后处理，达到了更精细的分割结果。 Zhao 等[12]在带孔卷积的网络模型基础上，提出了金字塔池化模块。该研究使用全局平均池化(Global Average Pooling，GAP)操作结果作为一个全局的上下文信息表征，与之前的特征图连接，使组合后的特征图同时包含全局的上下文信息和局部信息，是目前在 Pascal VOC 2012 数据集[13]上分割结果最好的方法之一。图像中物理属性(如深度、表面法向量、反射率) 的估计属于中层视觉任务，并可对高层视觉任务有所帮助。目前已经有许多数据驱动的深度估计方法[14-17]被提出，但这些方法受限于由深度传感器采集的图像数据集。尽管近年来消费级深度图像采集设备，如微软 Kinect、华硕 Xtion Pro 和英特尔 RealSense 等得到了大量使用，但仍主要局限于室内场景。对于镜面反射、透明或较暗物体等情况，常常会得到失败的结果。因此，在非受限的场景中难以用深度传感器得到可靠的深度图像。而对于语义分割任务而言，明确、清晰的边缘比精确的深度测量值本身更重要。有经验证据表明，相对于场景中某点的测量值，人类更擅长于估计两点之间的次序关系[18]。对于图像中两点的深度而言，“相等”“更深”“更浅”三种关系具有对单调变换的不变性，而且由人类对其标注，不存在场景受限的问题。Chen 等[19]构建了一个人类标注的“相对深度”点对数据集，并提出了一种以此标注端到端的训练卷积神经网络，从彩色图像预测深度图像的方法，显著改善了非受限场景下的单图深度感知。本文提出将彩色图像预测出的深度图像融入语义分割的卷积神经网络，利用深度图像的特性改善分割性能。本文的主要创新点为：(1)使用从彩色图像预测的深度图像作为语义分割网络的输入；(2) 用多分支输入、特征图合并连接融合深度图像特征的方法改善语义分割性能。实验结果表明，融合深度图像的特征可以显著提升语义分割性能。 2、融合深度图