基于CNN-Transformer双模态特征融合的目标检测算法_WORD.docxVIP

下载本文档

200
0
约2.86万字
约 15页
2024-04-15 发布于江苏
举报
版权申诉

基于CNN-Transformer双模态特征融合的目标检测算法_WORD.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

引用格式：YANGChen，HOUZhiqiang，LIXinyue，etal.ObjectDetectionAlgorithmBasedonCNN-TransformerDualModalFeatureFusion［J］.ActaPhotonicaSinica，2024，53（3）：0310001

引用格式:杨晨，侯志强，李新月，等.基于CNN-Transformer双模态特征融合的目标检测算法［J］.光子学报，2024，53（3）：0310001

基金项目：国家自然科学基金(No.，陕西省自然科学基金(No.2023?JC?YB?598)

第一作者：杨晨，ychealer@163.com

通讯作者：侯志强，hou-zhq@

收稿日期：2023?08?21；录用日期：2023?09?26

基于CNN-Transformer双模态特征融合的目标检测算法

杨晨1，2，侯志强1，2，李新月1，2，马素刚1，2，杨小宝1，2

（1西安邮电大学计算机学院，西安710121）

（2陕西省网络数据分析与智能处理重点实验室，西安710121）

摘要：针对单模态目标检测的不足，提出了一种基于CNN-Transformer双模态特征融合的目标检测算法。在YOLOv5的基础上，构建了一个可以同时输入红外和可见光图像的双流特征提取网络；然后，分别提出了基于卷积神经网络结构的红外特征提取主干网络和基于Transformer结构的可见光特征提取主干网络，以提升对红外和可见光图像的特征提取能力；最后，按照中期融合的思想，设计了双模态特征融合模块，对两个分支对应尺度的双模态特征信息进行有效融合，实现跨模态信息互补。在数据集上对所提算法进行验证，实验结果表明，该算法在KAIST数据集上对双模态图像进行检测的结果，较基准算法单独检测红外图像和可见光图像，精度分别提升了5.7%和17.4%；在FLIR数据集上较基准算法，检测精度分别提升了11.6%和17.1%；在自建GIR数据集上，所提算法的检测精度也有明显提升。此外，该算法还可以单独处理红外或可见光图像，且检测精度较基准算法均有明显提升。

关键词：目标检测；卷积神经网络；Transformer；双模态；特征融合；红外；可见光

中图分类号：TP391.41文献标识码：Adoi：10.3788/gzx0310001

0引言

目标检测作为计算机视觉领域的重要分支，已广泛应用于自动驾驶［1］、视频监控［2］、智能交通［3］等场景中。近年来，基于深度学习的目标检测算法以其出色的检测性能得到大力发展。在深度学习框架下，目标检测方法通常分为两大类：基于锚框的方法和无锚框的方法。基于锚框的方法为每一个位置设定多个矩形框，通过微调这些矩形框实现目标检测，根据检测流程的差异，可分为两阶段目标检测和单阶段目标检测两类。两阶段目标检测首先提取候选框，再分类和回归这些候选框以生成检测结果，其中典型方法包括R-CNN［4］、FastR-CNN［5］和FasterR-CNN［6］等；而单阶段目标检测算法直接对预定义锚点框进行分类和回归，如SSD［7］和YOLO［8-14］等系列算法。无锚框的目标检测算法去除了锚框的使用，通过关键点的组合和定位来实现目标检测，代表算法如CornerNet［15］、FCOS［16］和CenterNet［17］等。随着Transformer在计算机视觉领域的广泛应用，基于Transformer的目标检测算法也得到了显著进展，如DETR［18］、VIT-FRCNN［19］、DeformableDETR［20］等。然而，基于Transformer的方法因其高计算成本，在实际任务中面临部署难题。因此，许多研究者提出将卷积神经网络（ConvolutionalNeuralNetwork，CNN）与Transformer结合的目标检测方法，典型如BotNet［21］和CMT［22］等。这些方法巧妙地结合了CNN和Transformer的优势，融合了局部特征与全局特征，增强了特征表达能力，有效提升了目标检测性能，实现速度和精度的平衡。

目前，大多数目标检测算法主要基于可见光图像。在光照充足的情况下，可见光传感器能够有效地捕捉目标的颜色和纹理等信息。然而，实际应用中，由于各种环境因素的干扰，如遮挡、恶劣天气（如雨雾）、光照不均等情况［23］，可见光传感器往往难以获取完整的目标信息，从而无法满足精确的检测需求［24］。相反，红外图像主要基于热辐射能量成像，受光照影响较少，在光线不足的条件下可以提供清晰的轮廓信息，但其也存在图像对比度低、纹理信息匮乏等问题。针对上述问题，红外与可