理解行人手势误识:视觉语言模型推理的见解.pdfVIP

  • 1
  • 0
  • 约3.11万字
  • 约 9页
  • 2025-10-16 发布于北京
  • 举报

理解行人手势误识:视觉语言模型推理的见解.pdf

理解行人手势误识:视觉语言模型推理的

见解

TramThiMinhTranXinyanYuCallumPaker

tram.tran@.auxinyan.yu@.aucallum.parker@.au

DesignLab,SydneySchoolofDesignLab,SydneySchoolofDesignLab,SydneySchoolof

Architecture,DesignandArchitecture,DesignandArchitecture,Designand

Planning,TheUniversityofPlanning,TheUniversityofPlanning,TheUniversityof

SydneySydneySydney

本Sydney,NSW,AustraliaSydney,NSW,AustraliaSydney,NSW,Australia

译JulieStephanyStewartWorrallMartinTomitsch

中BerrioPerezstewart.worrall@.auMartin.Tomitsch@.au

1TheAustralianCentreforTransdisciplinarySchool,

vstephany.berrioperez@.au

1Robotics,TheUniversityofUniversityofTechnology

0TheAustralianCentrefor

8SydneySydney

6Robotics,TheUniversityof

0Sydney,NSW,AustraliaSydney,NSW,Australia

.Sydney

8

0Sydney,NSW,Australia

5

2摘要响误识的反复出现的因素,包括手势可见性、行人行

:

v为、交互背景和环境条件。研究结果提出了关于手势

i行人手势在交通沟通中扮演着重要角色,特别是在与

x设计的实际考虑因素,其中包括显眼性和上下文冗余

r自动驾驶汽车(AVs)的互动中,然而它们微妙、模糊且

a的价值,并强调通过更丰富的上下文建模和具有不确

依赖于上下文的特点对机器解释构成了持续性的挑战。

定性的解释来改进AV识别系统的机会。虽然这项研

本研究通过使用GPT-4V这一视觉语言模型来探讨这

究集中于AV与行人的互动,但其方法和见解也适用

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档