FlowNet到FlowNet2.0基于卷积神经网络光流预测.PDFVIP

  • 340
  • 0
  • 约8.98千字
  • 约 13页
  • 2018-12-11 发布于湖北
  • 举报

FlowNet到FlowNet2.0基于卷积神经网络光流预测.PDF

本文由SIGAI 人工智能平台原创,未经允许,不得转载 FlowNet 到FlowNet2.0:基于卷积神经网络的光流预测算法 作者:SIGAI 2018.6.2 导言 光流预测一直都是计算机视觉中的经典问题,同时又是解决很多其他问 题的基础而备受关注,例如,运动估计、运动分割和行为识别。随着深度神 经网络技术在计算机视觉领域中引发的技术变革,基于深度神经网络的光流 预测算法应运而生。本文中,SIGAI 将以 FlowNet 到FlowNet2.0 的演变,来 和大家一起领略基于CNN (卷积神经网络)的光流算法的诞生与发展。 光流(optical flow)是指平面上,光照模式的变化情况。在计算机视 觉领域,是指视频图像中各点像素随时间的运动情况。光流具有丰富的运动 信息,因而在运动估计、自动驾驶和行为识别方面都有广泛应用。光流预测 通常是从一对时间相关的图像对中,估计出第一张图像中各个像素点在相邻 图像中的位置。 本文由SIGAI 人工智能平台原创,未经允许,不得转载 光流问题长久以来,主要被基于变分能量模型的优化算法和基于块匹配 的启发式算法统治着。随着深度神经网络技术在计算机视觉领域取得的成功, 科学家们开始尝试利用深度学习技术的优势去解决光流问题。 FlowNet:新技术的诞生 随着 CNN 在图像分割、深度预测和边缘预测方面的成功,研究人员思考, 同样是每个像素点都要给出预测结果的光流预测问题能否也利用 CNN 进行预 测呢? FlowNet [1]是第一个尝试利用 CNN 去直接预测光流的工作,它将光流预 测问题建模为一个有监督的深度学习问题。模型框架如下: 图1 源自[1] 如图1 输入端为待求光流的图像对 I_1,I_2,输出端为预测的光流W。 W=CNN( θ,I_1,I_2) 其中 W,I_1,I_2 均为 x,y 的函数,x,y 为图像中像素的位置坐标。 θ为CNN 中待学习的参数。通过调节θ,来使网络具有光流预测的能力。 那么问题来了,什么样的网络结构具有光流预测能力呢? FlowNet [1]中提出了两种可行的网络结构. 网络整体上为编码模块接解码模块结构,编码模块均为9 层卷积加ReLU 本文由SIGAI 人工智能平台原创,未经允许,不得转载 激活函数层,解码模块均为 4 层反卷积加 ReLU 激活函数层,在文中解码模 块又被称为细化模块。整个网络结构类似于 FCN (全卷机网络),由卷积和反 卷积层构成,没有全连接层,因此理论上对输入图像的大小没有要求。 根据输入方式的不同,FlowNet 又分为 FlowNetSimple 和 FlowNetCorr。 编码模块 (如图2): 图2 源自[1] FlowNetS (FlowNetSimple) 直接将两张图像按通道维重叠后输入。 FlowNetC (FlowNetCorr)为了提升网络的匹配性能,人为模仿标准的 匹配过程,设计出“互相关层”,即先提取特征,再计算特征的相关性。相 关性的计算实际上可以看做是两张图像的特征在空间维做卷积运算。 解码模块 (如图3): 在解码细化的过程中,对每层的反卷积 ReLU 层,不仅输入前一层的输 出,同时还输入前一层预测的低尺度的光流和对应编码模块中的特征层。这 本文由SIGAI 人工智能平台原创,未经允许,不得转载 样使得每一层反卷积层在细化时,不仅可以获

文档评论(0)

1亿VIP精品文档

相关文档