多模态驾驶员注意力融合提升端到端自动驾驶能力.pdfVIP

下载本文档

0
0
约2.98万字
约 9页
2026-02-27 发布于北京
举报

多模态驾驶员注意力融合提升端到端自动驾驶能力.pdf

多模态驾驶员注意力融合提升端到端自动驾驶能力

PeiLiu,HaipengLiu,HaichaoLiu,XinLiu,JinxinNi,JunMa,SeniorMember,IEEE

摘要—人类驾驶员利用丰富的注意力语义在复杂场景中熟

练导航，但目前的自主系统难以复制这种能力，因为它们将2D

观测转换为3D空间时往往会丢失关键的语义信息。从这个意义

上讲，这阻碍了它们在动态和复杂环境中有效部署的能力。借助

视觉语言模型（VLM）优越的场景理解和推理能力，我们提出

了视觉语言模型端到端，这是一种利用VLM通过提供注意力

线索来增强训练的新框架。我们的方法将文本表示整合到鸟瞰图

（BEV）特征中以进行语义监督，这使得模型能够学习更丰富的

特征表示，并明确捕捉驾驶员的注意力语义。通过关注注意力语

义，视觉语言模型端到端更好地与类人驾驶行为对齐，这对于导

本航动态和复杂环境至关重要。此外，我们引入了一种BEV-文本

译可学习加权融合策略来解决多模态信息融合中模式重要性失衡

的问题。这种方法动态平衡了BEV和文本特征的贡献，确保视

中觉和文本模式的互补信息得到有效利用。通过明确处理多模态融

2合中的不平衡问题，我们的方法促进了驾驶环境更全面、更稳健

v的表现形式。我们在nuScenes数据集上评估了视觉语言模型端图1.视觉语言模型端到端在训练过程中通过语义文本描述增强了端到端驾

2驶模型。这些描述从VLMs中提取驾驶员的注意力，以鼓励模型学习更丰富

4到端，与基线端到端模型相比，在感知、预测和规划方面取得了的注意语义。

0显著改进，展示了我们注意力增强的BEV表示在实现更准确和

1可靠的自动驾驶任务方面的有效性。

.了这些进展，传统的端到端自动驾驶方法主要预测未来

0I.介绍的轨迹或控制信号，而没有明确考虑驾驶员对交通动态

2自主驾驶在近年来取得了显著的进步[1],[2],[3]，和导航线索等关键信息的关注。由于在高层次语义和上

:关键领域如感知[4]、运动预测[5]和规划[6]等方面都下文线索推理能力上的局限性，E2E系统通常难以应对

x有了重大进展。这些发展为实现更准确和安全的驾驶决复杂且模棱两可的场景。相比之下，人类驾驶者依赖于

a策奠定了坚实的基础。其中，端到端（E2E）自主驾驶一个注意决策过程，在这个过程中，对周围交通环境和

作为一种变革性的范式，通过利用大规模数据展示了令导航引导的关注起着至关重要的作用[7]。例如，当接

人印象深刻的规划能力。通过将原始传感器输入直接映近交叉路口时，人类驾驶员自然会优先考虑交通信号、

射到驾驶行为，E2E方法绕过了对手工设计中间模块的行人移动和车道标记，并根据不断变化的场景动态调整

需求，使解决方案更加灵活和可扩展。然而，尽管取得他们的注意力。

PeiLiu,HaichaoLiu,andXinLiuarewithTheHongKong这一限制推动了将视觉-语言模型（VLMs）[8],[9]

UniversityofScienceandTechnology(Guangzhou),Guangzhou集成到自动驾驶框架中。经过大量多模态数据训练，

511453,China(e-mail:pliu061@;hliu369@con-

VLMs在需要高级语义推理的任务上表现出色，例如解

;xliu969@).

HaipengLiuiswithLiAutoInc.,Shanghai201800,China(e-mail:释复杂场景、预测动态交互和生成情境描述。它们利用

liuhaipeng2012@).常识知识的能力使它们特别适合解决自动驾驶中的挑

多模态驾驶员注意力融合提升端到端自动驾驶能力.pdfVIP

多模态驾驶员注意力融合提升端到端自动驾驶能力.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档