CN120298667A 一种基于Mamba特征融合的目标检测方法 (重庆理工大学).docxVIP

  • 1
  • 0
  • 约2.01万字
  • 约 32页
  • 2026-01-25 发布于重庆
  • 举报

CN120298667A 一种基于Mamba特征融合的目标检测方法 (重庆理工大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120298667A(43)申请公布日2025.07.11

(21)申请号202510388177.1

(22)申请日2025.03.31

(71)申请人重庆理工大学

地址400054重庆市巴南区红光大道69号

(72)发明人娄浩楠杨博然梁瑞轩王勇

(74)专利代理机构重庆曙渝知识产权代理事务所(普通合伙)50343

专利代理师钟阳万

(51)Int.CI.

GO6N

3/045(2023.01)

说明书11页附图3页

GO6V10/25(2022.01)

GO6V10/44(2022.01)

GO6V10/52(2022.01)

GO6V10/80(2022.01)

GO6V10/82(2022.01)

GO6N3/0464(2023.01)

权利要求书3页

(54)发明名称

一种基于Mamba特征融合的目标检测方法

(57)摘要

CN120298667A本发明公开了一种基于Mamba特征融合的目标检测方法,涉及图像目标检测技术领域。本发明利用VSSA模块的创新实现,将状态空间模型的选择性扫描机制应用于2D视觉数据处理,通过四个方向的状态空间建模,有效捕获图像中的远距离依赖关系,这种多向处理策略解决了传统状态空间模型在处理二维视觉数据时的局限性,使模型能够全面感知图像中不同方向的空间依赖关系,VSSA采用可学习的状态空间参数对特征序列进行动态建模,增强了网络对复杂空间结构的理解能力,特别适合处理需要长距离上下文信息的场景,此外,本发明还结合了MTMHSA,进一步增强了目标检测中不同层次特征的融合能力。通过该

CN120298667A

间工间工■

CovBN

CN120298667A权利要求书1/3页

2

1.一种基于Mamba特征融合的目标检测方法,其特征在于:至少包括以下步骤:

步骤一:数据预处理,采集图像数据,在将图像数据输入到模型之前,对图像数据进行数据预处理;

步骤二:特征提取,采用创新的主干网络Mamba-R对预处理后的图像进行特征提取,得到多个尺度的特征图,Mamba-R网络包括VSSA块,即视觉空间特征增强模块,所述VSSA模块用于增强视觉空间特征,进一步提升空间信息表达能力,有效改善目标检测模型对复杂场景中目标的识别能力;

步骤三:特征融合,采用MultiscaleAttentionFusionEncoder,即MAFE编码器对特征图的浅层语义特征信息和深层语义特征信息进行特征融合,所述MAFE编码器通过结合混合拓扑多头自注意力模块,即MTMHSA模块,进行深层语义特征交互,有效提升了特征融合能力,能够在不同尺度上精准捕捉空间和上下文信息;

步骤四:特征解码,采用堆叠的多个解码器对MAFE编码器输出的特征进行解码操作得到特征序列,将特征序列输入到预测头进行预测,输出预测框坐标与预测类别;

步骤五:损失函数校正,对堆叠的多个解码器的输出进行收集,再通过损失函数对每个解码器的输出头进行梯度计算并调整参数;

步骤六:目标检测,基于步骤一到步骤五获得校正后的基于Mamba特征融合的目标检测模型,通过目标检测模型对待检测图像进行目标检测。

2.根据权利要求1所述的一种基于Mamba特征融合的目标检测方法,其特征在于:所述步骤一至少包括以下步骤:

首先进行归一化处理,使像素值标准化到统一的范围,确保图像数据能够有效地传递给神经网络,将像素值映射到统一的范围,以避免不同图像像素值范围的差异对训练过程造成影响;

接下来,对图像数据应用一系列随机变换进行数据增强,所述随机变换至少包括随机的颜色扰动、尺寸扩展、裁剪以及水平翻转,采用数据增强的方式增加样本多样性,提高模型在不同场景和角度下的适应能力;

最后,对图像进行统一的尺寸调整,将图像数据调整为固定的尺寸,确保图像能够符合网络的输入要求,以便输入到模型进行后续的处理并有助于减少不必要的计算开销;

通过上述的处理步骤,确保输入的图像信息更具代表性和多样性,从而提升模型的训练效率和精度。

3.根据权利要求1所述的一种基于Mamba特征融合的目标检测方法,其特征在于:所述Mamba-R网络由多个

文档评论(0)

1亿VIP精品文档

相关文档