面向复杂动态场景下的多模态图像融合应用研究.pdfVIP

面向复杂动态场景下的多模态图像融合应用研究.pdf

面向复杂动态场景下的多模态图像融合应用研究

摘要

多模态图像融合是一种关键的图像处理技术，旨在通过特定的特征提取与融合策略，生

成一幅包含更全面信息的图像。由于理论与技术的局限，单一模态的图像往往难以完整反映

实际场景。因此，将不同模态图像进行融合，成为提高图像表达能力的重要手段。以红外与

可见光图像融合为例，可见光图像具备丰富的纹理和细节，有助于刻画场景结构，但在弱光、

遮挡或恶劣天气条件下容易丢失关键信息；而红外图像依赖热辐射成像，能够在黑暗或复杂

环境中突出关键目标，但缺乏细节表达。将两者优势互补融合，可有效提升对场景的理解完

整性与鲁棒性。然而在复杂动态场景中，如目标快速移动或光照变化剧烈，传统融合方法面

临更大挑战，难以充分保持关键特征与结构信息。为此，本文针对红外-可见光、医学图像

以及多焦点图像融合等典型应用场景，深入挖掘不同模态之间的信息互补性，力求提升融合

图像对多样场景的整体感知能力和适应性。本文的主要研究内容如下：

1CNN

（）为了充分保留不同模态的细节信息和全局信息，本章构建了一种基于和

Transformer的双分支特征分解融合网络。考虑到梯度信息对跨模态特征分布的影响，设计

新型的增强注意模块和梯度感知模块，通过渐进式特征增强架构解决图像细节特征提取不

完整的问题。由于图像分解过程中存在信息丢失的问题，本章又提出了一种两阶段训练策

略，通过将重建图像纳入模型训练过程，以优化特征学习。

（2）为了克服低质量图像在图像融合过程中的退化问题，本章构建了一种文本语义引

导的图像融合方法，帮助模型聚焦于图像中的关键特征，优化特征选择过程，减少冗余信

息的干扰。通过设计一种通道空间注意力模块（CSAM）组，在多层次上处理和组合特征，

将文本的语义特征与图像融合特征耦合在一起，从而增强融合结果的细节信息和全局一致

性，使得融合后的图像具备更好的视觉或语义表现。最后在红外可见光融合、医学图像融

合和多焦点图像融合三类典型任务的公开数据集上进行了实验分析。

（3）为了提升目标检测在复杂动态场景中的准确性与鲁棒性，解决单一模态图像在低

照度、遮挡和背景干扰条件下目标识别困难的问题，本章通过构建基于YOLOv10的双光检

测系统，将红外与可见光融合图像作为检测输入，有效增强了目标的表征能力与边缘清晰

度。在典型的白天、夜间场景下的实验结果表明，融合图像显著提高了目标检测的精度与

稳定性。

关键词：多模态图像融合；深度学习；双分支特征分解；文本语义引导

临沂大学硕士学位论文

Abstract

Multimodalimagefusionisakeyimageprocessingtechniqueaimedatgeneratinganimage

containingmorecomprehensiveinformationthroughspecificfeatureextractionandfusion

strategies.Duetothelimitationsoftheoryandtechnology,itisoftendifficultforasinglemodal

imagetocompletelyreflecttheactualscene.Therefore,fusionofdifferentmodalimagesbecomes

animportantmeanstoimprovetheimageexpressionability.Takingthefusionofinfraredand

visiblelightimagesasanexample,visiblelightimageshaverichtexturesanddetails,whichhelp