面向复杂动态场景下的多模态图像融合应用研究.pdfVIP

  • 0
  • 0
  • 约10.52万字
  • 约 67页
  • 2026-03-17 发布于江西
  • 举报

面向复杂动态场景下的多模态图像融合应用研究.pdf

面向复杂动态场景下的多模态图像融合应用研究

摘要

多模态图像融合是一种关键的图像处理技术,旨在通过特定的特征提取与融合策略,生

成一幅包含更全面信息的图像。由于理论与技术的局限,单一模态的图像往往难以完整反映

实际场景。因此,将不同模态图像进行融合,成为提高图像表达能力的重要手段。以红外与

可见光图像融合为例,可见光图像具备丰富的纹理和细节,有助于刻画场景结构,但在弱光、

遮挡或恶劣天气条件下容易丢失关键信息;而红外图像依赖热辐射成像,能够在黑暗或复杂

环境中突出关键目标,但缺乏细节表达。将两者优势互补融合,可有效提升对场景的理解完

整性与鲁棒性。然而在复杂动态场景中,如目标快速移动或光照变化剧烈,传统融合方法面

临更大挑战,难以充分保持关键特征与结构信息。为此,本文针对红外-可见光、医学图像

以及多焦点图像融合等典型应用场景,深入挖掘不同模态之间的信息互补性,力求提升融合

图像对多样场景的整体感知能力和适应性。本文的主要研究内容如下:

1CNN

()为了充分保留不同模态的细节信息和全局信息,本章构建了一种基于和

Transformer的双分支特征分解融合网络。考虑到梯度信息对跨模态特征分布的影响,设计

新型的增强注意模块和梯度感知模块,通过渐进式特征增强架构解决图像细节特征提取不

完整的问题。由于图像分解过程中存在信息丢失的问题,本章又提出了一种两阶段训练策

略,通过将重建图像纳入模型训练过程,以优化特征学习。

(2)为了克服低质量图像在图像融合过程中的退化问题,本章构建了一种文本语义引

导的图像融合方法,帮助模型聚焦于图像中的关键特征,优化特征选择过程,减少冗余信

息的干扰。通过设计一种通道空间注意力模块(CSAM)组,在多层次上处理和组合特征,

将文本的语义特征与图像融合特征耦合在一起,从而增强融合结果的细节信息和全局一致

性,使得融合后的图像具备更好的视觉或语义表现。最后在红外可见光融合、医学图像融

合和多焦点图像融合三类典型任务的公开数据集上进行了实验分析。

(3)为了提升目标检测在复杂动态场景中的准确性与鲁棒性,解决单一模态图像在低

照度、遮挡和背景干扰条件下目标识别困难的问题,本章通过构建基于YOLOv10的双光检

测系统,将红外与可见光融合图像作为检测输入,有效增强了目标的表征能力与边缘清晰

度。在典型的白天、夜间场景下的实验结果表明,融合图像显著提高了目标检测的精度与

稳定性。

关键词:多模态图像融合;深度学习;双分支特征分解;文本语义引导

IV

临沂大学硕士学位论文

Abstract

Multimodalimagefusionisakeyimageprocessingtechniqueaimedatgeneratinganimage

containingmorecomprehensiveinformationthroughspecificfeatureextractionandfusion

strategies.Duetothelimitationsoftheoryandtechnology,itisoftendifficultforasinglemodal

imagetocompletelyreflecttheactualscene.Therefore,fusionofdifferentmodalimagesbecomes

animportantmeanstoimprovetheimageexpressionability.Takingthefusionofinfraredand

visiblelightimagesasanexample,visiblelightimageshaverichtexturesanddetails,whichhelp

toportraythestructureofthescene,butitisea

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档