- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
引用格式:YANGChen,HOUZhiqiang,LIXinyue,etal.ObjectDetectionAlgorithmBasedonCNN-TransformerDualModalFeatureFusion[J].ActaPhotonicaSinica,2024,53(3):0310001
引用格式:杨晨,侯志强,李新月,等.基于CNN-Transformer双模态特征融合的目标检测算法[J].光子学报,2024,53(3):0310001
基金项目:国家自然科学基金(No.,陕西省自然科学基金(No.2023?JC?YB?598)
第一作者:杨晨,ychealer@163.com
通讯作者:侯志强,hou-zhq@
收稿日期:2023?08?21;录用日期:2023?09?26
基于CNN-Transformer双模态特征融合的目标检测算法
杨晨1,2,侯志强1,2,李新月1,2,马素刚1,2,杨小宝1,2
(1西安邮电大学计算机学院,西安710121)
(2陕西省网络数据分析与智能处理重点实验室,西安710121)
摘要:针对单模态目标检测的不足,提出了一种基于CNN-Transformer双模态特征融合的目标检测算法。在YOLOv5的基础上,构建了一个可以同时输入红外和可见光图像的双流特征提取网络;然后,分别提出了基于卷积神经网络结构的红外特征提取主干网络和基于Transformer结构的可见光特征提取主干网络,以提升对红外和可见光图像的特征提取能力;最后,按照中期融合的思想,设计了双模态特征融合模块,对两个分支对应尺度的双模态特征信息进行有效融合,实现跨模态信息互补。在数据集上对所提算法进行验证,实验结果表明,该算法在KAIST数据集上对双模态图像进行检测的结果,较基准算法单独检测红外图像和可见光图像,精度分别提升了5.7%和17.4%;在FLIR数据集上较基准算法,检测精度分别提升了11.6%和17.1%;在自建GIR数据集上,所提算法的检测精度也有明显提升。此外,该算法还可以单独处理红外或可见光图像,且检测精度较基准算法均有明显提升。
关键词:目标检测;卷积神经网络;Transformer;双模态;特征融合;红外;可见光
中图分类号:TP391.41文献标识码:Adoi:10.3788/gzx0310001
0引言
目标检测作为计算机视觉领域的重要分支,已广泛应用于自动驾驶[1]、视频监控[2]、智能交通[3]等场景中。近年来,基于深度学习的目标检测算法以其出色的检测性能得到大力发展。在深度学习框架下,目标检测方法通常分为两大类:基于锚框的方法和无锚框的方法。基于锚框的方法为每一个位置设定多个矩形框,通过微调这些矩形框实现目标检测,根据检测流程的差异,可分为两阶段目标检测和单阶段目标检测两类。两阶段目标检测首先提取候选框,再分类和回归这些候选框以生成检测结果,其中典型方法包括R-CNN[4]、FastR-CNN[5]和FasterR-CNN[6]等;而单阶段目标检测算法直接对预定义锚点框进行分类和回归,如SSD[7]和YOLO[8-14]等系列算法。无锚框的目标检测算法去除了锚框的使用,通过关键点的组合和定位来实现目标检测,代表算法如CornerNet[15]、FCOS[16]和CenterNet[17]等。随着Transformer在计算机视觉领域的广泛应用,基于Transformer的目标检测算法也得到了显著进展,如DETR[18]、VIT-FRCNN[19]、DeformableDETR[20]等。然而,基于Transformer的方法因其高计算成本,在实际任务中面临部署难题。因此,许多研究者提出将卷积神经网络(ConvolutionalNeuralNetwork,CNN)与Transformer结合的目标检测方法,典型如BotNet[21]和CMT[22]等。这些方法巧妙地结合了CNN和Transformer的优势,融合了局部特征与全局特征,增强了特征表达能力,有效提升了目标检测性能,实现速度和精度的平衡。
目前,大多数目标检测算法主要基于可见光图像。在光照充足的情况下,可见光传感器能够有效地捕捉目标的颜色和纹理等信息。然而,实际应用中,由于各种环境因素的干扰,如遮挡、恶劣天气(如雨雾)、光照不均等情况[23],可见光传感器往往难以获取完整的目标信息,从而无法满足精确的检测需求[24]。相反,红外图像主要基于热辐射能量成像,受光照影响较少,在光线不足的条件下可以提供清晰的轮廓信息,但其也存在图像对比度低、纹理信息匮乏等问题。针对上述问题,红外与可
您可能关注的文档
- GRIN色散物镜光学像差对峰值波长提取的影响_WORD.docx
- 超高速快轴旋转圆形弹光调制技术研究_WORD.docx
- 广域空间感知敏感器光学系统设计_WORD.docx
- 基于PROA-BP的激光3D投影振镜偏转电压预测模型_WORD.docx
- 基于Ti3C2Tx-PVA被动调Q的低噪声556nm腔内倍频黄绿光激光器_WORD.docx
- 基于多重降质复合信道的UWOC系统误码率性能研究_WORD.docx
- 基于改进Morozov偏差原理的动态光散射粒度反演_WORD.docx
- DB62T 4139-2020 循环型社区建设规范.pdf
- DB62T 4118-2020 碧桃栽培技术规程.pdf
- DB62T 4135-2020 抗冲改性聚氯乙烯(PVC-M)管材高速冲击试验方法.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)