CN115731280B 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法（哈尔滨工程大学）.docxVIP

下载本文档

0
0
约1.24万字
约 21页
2026-01-21 发布于重庆
举报

CN115731280B 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法（哈尔滨工程大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115731280B(45)授权公告日2025.07.11

(21)申请号202211467771.2

(22)申请日2022.11.22

(65)同一申请的已公布的文献号申请公布号CN115731280A

(43)申请公布日2023.03.03

(73)专利权人哈尔滨工程大学

地址150001黑龙江省哈尔滨市南岗区南

通大街145号哈尔滨工程大学科技处知识产权办公室

(56)对比文件

CN113724155A,2021.11.30

US2021390723A1,2021.12.16审查员詹烨

(72)发明人项学智李伟吕宁乔玉龙

(51)Int.CI.

GO6T7/55(2017.01)

G06V10/80(2022.01)

GO6N3/08(2023.01)

GO6N3/0464(2023.01)

权利要求书2页说明书6页附图3页

(54)发明名称

基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

(57)摘要

视差图D深度网络

视差图D

CN115731280B通道维度上进行拼接位姿网络相对位姿T图像重建本发明提供一种基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法，目的在于提出一种基于Swin-Transformer和卷积神经网络(CNN)并行网络的自监督单目深度估计方法。本发明将Swin-Transformer和CNN同时用于

CN115731280B

通道维度上进行拼接

位姿网络相对位姿T

图像重建

CN115731280B权利要求书1/2页

1.基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法，其特征在于，步骤如下：

步骤一：使用单目像机进行拍摄并进行处理后得到一系列分辨率为H*W,长度为N的图像序列；

步骤二：在步骤一的图像序列中选取一帧图像I作为Swin-Transformer和卷积神经网络并行结构的深度网络的输入，输出为不同尺度的深度图D,将I和相邻帧图像It-1在通道维度上进行拼接后作为纯卷积神经网络结构的位姿网络的输入，输出两帧图像的相对位姿Tt→t-1;

步骤三：基于步骤二中深度网络最终输出的深度图D。和位姿网络输出的相对位姿Tt→t-1进行输入图像I的视图重建得到重建图像I′,计算单尺度图像重建损失L;基于步骤二中深度网络输出的不同分辨率的深度图D计算逐尺度自蒸馏损失Lsa和边缘平滑损失L;

步骤四：基于单尺度图像重建损失L。、逐尺度自蒸馏损失La和边缘平滑损失L构造深度网络和位姿网络的整体损失函数Ltotal,使用单目视频进行网络的自监督训练，直至整体损失函数Ltota?收敛；得到训练好的深度网络；

步骤五：将单张图像输入到训练好的深度网络中，网络输出与输入图像分辨率大小相同的深度图D?,将深度图D?作为输入图像的单目深度估计结果。

2.根据权利要求1所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法，其特征在于：步骤二构建的深度网络由编码器和解码器组成，编码器和解码器之间进行跨层跳跃连接；编码器由Swin-Transformer分支和CNN分支并行组成，利用Swin-Transformer分支和CNN分支分别提取图像特征得到不同尺度的特征图；Swin-Transformer

分支中包含有n个Swin-Transformer模块，输入图像经过Swin-Transformer分支总共得到n种不同尺度的特征图X;CNN分支由CNN模块组成，输入图像经过CNN分支总共得到n种不同尺度的特征图Y,其中，n的大小根据输入图像的分辨率大小进行选择，以达到适应不同分辨率输入的目的。

3.根据权利要求2所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法，其特征在于：解码器由Swin-Transformer模块组成，其能输出n+1种不同分辨率的深度图D?、D?、D?…、D,分辨率依次减小，其中D?和输入图像I分辨率大小相同。

CN115731280B 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法（哈尔滨工程大学）.docxVIP