基于CNN-Transformer双模态特征融合的目标检测算法_WORD.docxVIP

基于CNN-Transformer双模态特征融合的目标检测算法_WORD.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

引用格式:YANGChen,HOUZhiqiang,LIXinyue,etal.ObjectDetectionAlgorithmBasedonCNN-TransformerDualModalFeatureFusion[J].ActaPhotonicaSinica,2024,53(3):0310001

引用格式:杨晨,侯志强,李新月,等.基于CNN-Transformer双模态特征融合的目标检测算法[J].光子学报,2024,53(3):0310001

基金项目:国家自然科学基金(No.,陕西省自然科学基金(No.2023?JC?YB?598)

第一作者:杨晨,ychealer@163.com

通讯作者:侯志强,hou-zhq@

收稿日期:2023?08?21;录用日期:2023?09?26

基于CNN-Transformer双模态特征融合的目标检测算法

杨晨1,2,侯志强1,2,李新月1,2,马素刚1,2,杨小宝1,2

(1西安邮电大学计算机学院,西安710121)

(2陕西省网络数据分析与智能处理重点实验室,西安710121)

摘要:针对单模态目标检测的不足,提出了一种基于CNN-Transformer双模态特征融合的目标检测算法。在YOLOv5的基础上,构建了一个可以同时输入红外和可见光图像的双流特征提取网络;然后,分别提出了基于卷积神经网络结构的红外特征提取主干网络和基于Transformer结构的可见光特征提取主干网络,以提升对红外和可见光图像的特征提取能力;最后,按照中期融合的思想,设计了双模态特征融合模块,对两个分支对应尺度的双模态特征信息进行有效融合,实现跨模态信息互补。在数据集上对所提算法进行验证,实验结果表明,该算法在KAIST数据集上对双模态图像进行检测的结果,较基准算法单独检测红外图像和可见光图像,精度分别提升了5.7%和17.4%;在FLIR数据集上较基准算法,检测精度分别提升了11.6%和17.1%;在自建GIR数据集上,所提算法的检测精度也有明显提升。此外,该算法还可以单独处理红外或可见光图像,且检测精度较基准算法均有明显提升。

关键词:目标检测;卷积神经网络;Transformer;双模态;特征融合;红外;可见光

中图分类号:TP391.41文献标识码:Adoi:10.3788/gzx0310001

0引言

目标检测作为计算机视觉领域的重要分支,已广泛应用于自动驾驶[1]、视频监控[2]、智能交通[3]等场景中。近年来,基于深度学习的目标检测算法以其出色的检测性能得到大力发展。在深度学习框架下,目标检测方法通常分为两大类:基于锚框的方法和无锚框的方法。基于锚框的方法为每一个位置设定多个矩形框,通过微调这些矩形框实现目标检测,根据检测流程的差异,可分为两阶段目标检测和单阶段目标检测两类。两阶段目标检测首先提取候选框,再分类和回归这些候选框以生成检测结果,其中典型方法包括R-CNN[4]、FastR-CNN[5]和FasterR-CNN[6]等;而单阶段目标检测算法直接对预定义锚点框进行分类和回归,如SSD[7]和YOLO[8-14]等系列算法。无锚框的目标检测算法去除了锚框的使用,通过关键点的组合和定位来实现目标检测,代表算法如CornerNet[15]、FCOS[16]和CenterNet[17]等。随着Transformer在计算机视觉领域的广泛应用,基于Transformer的目标检测算法也得到了显著进展,如DETR[18]、VIT-FRCNN[19]、DeformableDETR[20]等。然而,基于Transformer的方法因其高计算成本,在实际任务中面临部署难题。因此,许多研究者提出将卷积神经网络(ConvolutionalNeuralNetwork,CNN)与Transformer结合的目标检测方法,典型如BotNet[21]和CMT[22]等。这些方法巧妙地结合了CNN和Transformer的优势,融合了局部特征与全局特征,增强了特征表达能力,有效提升了目标检测性能,实现速度和精度的平衡。

目前,大多数目标检测算法主要基于可见光图像。在光照充足的情况下,可见光传感器能够有效地捕捉目标的颜色和纹理等信息。然而,实际应用中,由于各种环境因素的干扰,如遮挡、恶劣天气(如雨雾)、光照不均等情况[23],可见光传感器往往难以获取完整的目标信息,从而无法满足精确的检测需求[24]。相反,红外图像主要基于热辐射能量成像,受光照影响较少,在光线不足的条件下可以提供清晰的轮廓信息,但其也存在图像对比度低、纹理信息匮乏等问题。针对上述问题,红外与可

文档评论(0)

专业知识分享者 + 关注
实名认证
服务提供商

专注于各种专业试卷分享(尤其擅长医学类);擅长专业PPT制作

1亿VIP精品文档

相关文档