用于交通运输应用中的对象检测的双流注意力与多模态查询.pdfVIP

下载本文档

0
0
约2.35万字
约 15页
2025-10-13 发布于北京
举报
版权申诉

用于交通运输应用中的对象检测的双流注意力与多模态查询.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

STUDENT,PROF,COLLABORATOR:BMVCAUTHORGUIDELINES1

用于交通运输应用中的对象检测的双流注意力

与多模态查询

NoreenAnwar11LITIV,PolytechniqueMontréal

noreen.anwar@polymtl.caMontréal,Canada

Guillaume-AlexandreBilodeau12DataScienceLaboratory,

gabilodeau@polymtl.caUniversitéduQuébec(TELUQ)

Montréal,Canada

WassimBouachir2

wassim.bouachir@teluq.ca

本

译

中

v摘要

6基于Transformer的目标检测器通常在处理遮挡、细粒度定位和由固定查询

4及密集注意力机制引起的计算低效方面遇到困难。我们提出了DAMM（Dual-

0streamAttentionwithMulti-Modalqueries，多模态查询的双流注意力），一种

8通过引入查询适应性和结构化交叉注意力来提高准确性和效率的新框架。DAMM

0利用了三种类型的查询：基于外观的来自视觉语言模型的查询、使用多边形嵌入

2的位置查询以及用于一般场景覆盖的随机学习查询。此外，一个双流交叉注意力

:模块分别优化语义和空间特征，在杂乱场景中提升了定位精度。我们在四个具有

i挑战性的基准测试上评估了DAMM，它在平均精度（AP）和召回率方面达到了

r最先进的性能，证明了多模态查询适应性和双流注意力的有效性。源代码位于：

GitHub。

1介绍

传统的交通应用对象检测方法主要集中在使用刚性边界框对预定义类别中

的物体进行分类和定位。虽然这些方法取得了显著的成功，但它们在面对由任

意物体、遮挡物和复杂空间结构所构成的真实世界场景时难以泛化。最近基于

变换器的检测器，如DETR及其变体，提高了检测精度，但仍受静态对象查询、

计算成本高昂的全局注意力机制以及有限的空间粒度限制。这些限制在动态环

境中尤为明显，在这种环境下，物体形状、遮挡和分布与训练期间所见有很大

Itmaybedistributedunchangedfreelyinprintorelectronicforms.

2STUDENT,PROF,COLLABORATOR:BMVCAUTHORGUIDELINES

不同，例如在空中和城市场景中。UAVDT[3]和VisDrone[32]突出了在基于

无人机的图像中检测小且高度遮挡对象的挑战。现有方法如RT-DETR[28]和

UAV-DETR[28]试图优化变换器以适应基于无人机的检测，但仍受限于对预定

义对象分布的依赖。

近期视觉语言模型（VLMs）[4,12,15]在缩小视觉和文本表示差距方面取

得了突破，为开放世界识别开辟了新途径。然而，现有的检测框架由于以下三个

缺点未能充分利用这些进展：(1)依赖静态查询嵌入，缺乏适应不同物体外观和

上下文的能力；(2)解码器中密集的自注意力机制导致计算效率低下；(3)使用

刚性、轴对齐的边界框位置查询，对于不规则几何形状的物体提供次优的位置定

位。我们通过四项贡献解决了这些问题：

•多模态查询：我们引入了一个统一的查询集，该集合整合了基于视觉语言

嵌入的外观查询以捕捉语义信息、基于分割驱动多边形嵌入的位置查询以

捕捉空间信息以及随机学习的查询以确保对一般场景的强大覆盖。这种多

模态方法使模型能够动态适应多样化的物体外观和上下文，解决了第一个

缺点。

•自适应查询融合：我们设计了一个可学习的机制，用于动态地细化变压器

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

用于交通运输应用中的对象检测的双流注意力与多模态查询.pdfVIP