网站大量收购独家精品文档,联系QQ:2885784924

基于注意力机制的轻量化实时目标检测方法研究.pdf

基于注意力机制的轻量化实时目标检测方法研究.pdf

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

图像目标检测是计算机视觉领域中一项基础且富有挑战的任务,其目标旨在检测出覆盖

感兴趣区域的最小边框,并同时赋予该边框对应的语义标签。近年来,随着深度学习的发展,

目标检测器的性能得到了极大的提升。尽管这些检测器取得了巨大的进步,但是它们大多数

包含了成百甚至上千的卷积层和特征通道,其模型大小和执行效率对于真实世界需要实时推

理的应用,譬如自动驾驶、机器视觉来说是不可接受的。为了适应真实世界的应用,许多轻

量化实时目标检测器被提出,它们通常采用单分支骨干网结构,包含少量的卷积层和连续的

下采样操作,这使得其高分辨率定位细节粗糙且不准确,这对于目标的定位是不利的。另一

方面,由于轻量化网络的模型容量有限,不擅长建模全局关系。此外,为了获得更快的推理

速度,现有的轻量化模型倾向于在检测器的颈部和检测头使用简单的架构,但是这种做法忽

略了不同特征之间的关系。为了应对上述问题,本文进行了以下研究:

(1)针对轻量化检测器在网络浅层的快速下采样策略而导致高分辨率细节提取不充分的

问题,提出了一种包含轻量化自注意力的双路径网络(DPNet),以进行高效的目标检测。DPNet

使用双路径骨干网架构,骨干网拥有两条平行的双分辨率路径,其中低分辨率路径提取语义

信息,高分辨率路径保留定位细节,两种特征都对目标检测十分重要。此外,为了改善模型

的容量和特征表达能力,一个单输入单输出的轻量化自注意力模块(LSAM)被设计并嵌入在

骨干网中。在MSCOCO2017的实验结果表明,DPNet在检测精度和执行效率间取得了令人

满意的平衡。

(2)针对轻量化检测器的全局建模能力弱的问题,提出了En-DPNet。En-DPNet在DPNet-

S的基础上将LSAM改进为轻量化自联系模块(LSCM)。LSCM在空间注意力中使用更大的

池化窗口来保存空间细节,探索像素-区域的关系;在通道注意力中维持相对更多的特征通道,

探索通道-子通道的关系。此外,DPNet在检测器的颈部网络采取了常见的FPN架构,使用双

线性插值和元素加来进行多尺度特征融合,忽略了多尺度特征之间的关系,这推动本文将

LSCM扩展为多输入版本的轻量化交叉联系模块(LCCM),用来融合不同卷积层的跨尺度特

征。实验结果表明,在320×320的输入图像大小下,En-DPNet在MSCOCO2017test-dev取

得了29.6%AP,在PascalVOC测试集上取得了79.2%mAP,推理速度分别为164FPS和

196FPS,仅有约2.5M模型大小和1.0GFLOPs。

(3)针对检测头中分类和回归两个任务缺乏信息交互,且两个任务需求特征不一致的问

题,提出了Eh-DPNet。Eh-DPNet在En-DPNet的基础上设计了交互注意力模块(IAM)来增

强两个任务间的特征交互。在检测头中,IAM在通道与空间维度分别对分类分支与回归分支

的特征进行建模,生成各自任务所需特征的同时,还加强了任务间的信息交互。实验结果表

明,在320×320的输入图像大小下,Eh-DPNet在MSCOCO2017test-dev取得了30.4%AP,

仅有约2.75M模型大小和1.06GFLOPs,推理速度为161FPS。

关键词:图像目标检测,轻量级网络,卷积神经网络,注意力机制,实时目标检测

Abstract

Imageobjectdetectionisafundamentalandchallengingtaskinthefieldofcomputervision,

whichaimstodetecttheminimumboundingboxesthatcoverobjectsofinterestininputimages,and

assignassociatedsemanticlabelssynchronously.Recently,withthedevelopmentofdeeplearning,

objectdetectorshavegreatlyimprovedthedetectionaccuracy.Inspiteofac

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档