CN115187777A 一种数据集制作困难下的图像语义分割方法 (电子科技大学).docxVIP

  • 1
  • 0
  • 约9.75千字
  • 约 15页
  • 2026-02-02 发布于重庆
  • 举报

CN115187777A 一种数据集制作困难下的图像语义分割方法 (电子科技大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN115187777A(43)申请公布日2022.10.14

(21)申请号202210650449.7

(22)申请日2022.06.09

(71)申请人电子科技大学

GO6T3/40(2006.01)

地址611731四川省成都市高新区(西区)

西源大道2006号

(72)发明人叶润闫斌周小佳李智勇

(74)专利代理机构电子科技大学专利中心

51203

专利代理师陈一鑫

(51)Int.CI.

GO6V10/26(2022.01)

GO6V10/82(2022.01)

GO6V10/80(2022.01)

GO6N3/04(2006.01)

GO6N3/08(2006.01)

权利要求书1页说明书5页附图3页

(54)发明名称

一种数据集制作困难下的图像语义分割方法

(57)摘要

CN115187777A该发明公开了一种数据集制作困难下的图像语义分割方法,属于图像处理领域。本发明设计的ACGAN相比于现有的数据增广方法,比如翻转,旋转,平移,缩放等,不会破坏目标图像中的上下文信息,并且能够生成与真实场景极为相似的数据,用于语义分割网络训练时其他数据增广方法可能会使图像语义信息发生改变,但是本发明生成出来的样本由于与真实场景极其相似,不会丢失语义信息。本发明设计的AC-Net相比于其他语义分割给方法,在卷积层设计了两路卷积,

CN115187777A

真/假

.

CN115187777A权利要求书1/1页

2

1.一种数据集制作困难下的图像语义分割方法,该方法包括:

步骤1:样本的预处理以及数据增广;

步骤1.1:获取样本图像,并对样本图像进行分辨率归一化,然后将样本图像与其对应的语义标签可视化图像拼接为新图像;

步骤1.2:采用ACGAN模型对步骤1得到的新图像进行数据增广;

所述ACGAN模型包括:生成器和判别器,所述生成器一共有18层结构,包括编码部分和解码部分;所述编码部分包括:依次连接的第1层到第8层,其中第1层为双路卷积结构,该结构包括3路,输入直接分为3路,其中2路结构相同,这两路依次经过2个3x3卷积层,并且第二个3x3卷积层的输入和输出拼接后作为该路的输出,另外的一路为一个1x1的卷积层,三路的输出共同融合后为该双路卷积结构的输出;第2层为核为2的最大池化结构,第1层与第2层组成了一组卷积池化结构,后续第3、4层,5、6层、7、8层同样为这种卷积池化结构;所述解码部分包括:依次连接的第9层到第18层,第9层结构为与第1层结构相同,第10层为上采样结构,通过双线性插值实现,第11、12层与第9层、10层结构对应相同,第13层与第1层结构相同;第14层是双注意力机制结构,该结构通过DANet中的位置注意力机制以及通道注意力机制组成,第15层是上采样结构,16层是双路卷积结构,17层是上采样结构,18层与第1层结构相同;并且,第1层的输出与第18层的输出拼接作为第18层的输出,第3层的输出与第16层的输出拼接作为第16层的输出,第5层的输出与第13层的输出拼接作为第13层的输出,第7层的输出与第11层的输出拼接作为第11层的输出;

数据输入生成器结构之后,会输出一个生成图像,该生成图像接下来进入判别器中;

所述判别器为全卷积结构,一共有5层结构,其中前三层是3个步长为2的4×4卷积,后面两层是2个步长为1的4×4卷积,生成器生成图像进入到判别器后输出一个标量值,范围在[0,1]之间,通过输入训练数据不断训练生成器以及判别器,最终判别器输出稳定在0.5时训练结束;此时,向训练好的生成器输入样本,就能生成一个新数据,该新数据为增广的样本;

步骤2:建立语义分割网络;该语义分割网络与步骤1中的生成器结构相同;但是训练过程与步骤1不同,步骤1中训练生成器时,输入的是语义标签,而在分语义分割网络训练中输入的是Cityscapes训练集原始图像,步骤1中损失函数使用的是条件生成对抗网络的cGAN-Loss,语义分割网络损失函数为交叉熵损失函数CrossEntropyLoss;

步骤3:采用步骤1预处理好的数据训练步骤2得到的语义分割网络,采用训练好的语义分割网络进行实际的图像语义分割。

CN115187777A

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档