MINGLE:用于城市场景中语义复杂区域检测的 VLMs.pdfVIP

  • 0
  • 0
  • 约2.08万字
  • 约 14页
  • 2026-02-27 发布于北京
  • 举报

MINGLE:用于城市场景中语义复杂区域检测的 VLMs.pdf

MINGLE:用于城市场景中语义复杂区域检测的VLMs

LiuLiu,AlexandraKudaeva,MarcoCipriano,

FatimehAlGhannam,FreyaTan,GerarddeMelo,AndresSevtsuk

MassachusettsInstituteofTechnology

HassoPlattnerInstitute

lyons66@,aleksandra.kudaeva@hpi.de

摘要

本理解公共空间中的群体级社会互动对于城市规划至关重要,它有助于设计充满活力且包

译容的社会环境。从图像中检测此类互动涉及解读诸如关系、邻近性和共动等微妙的视觉线索

——这些信号在语义上复杂,超出了传统目标检测的范围。为了解决这一挑战,我们引入了

中一项社会群体区域检测任务,该任务需要推断并空间定位由抽象的人际关系定义的视觉区

2域。我们提出了MINGLE(建模人际群体级参与),这是一个模块化的三阶段管道,整合了:

v

4(1)现成的人体检测和深度估计,(2)基于VLM的推理来分类成对的社会归属,以及(3)一

8种轻量级的空间聚合算法来定位社会关联的群体。为了支持这一任务并鼓励未来的研究,我

4

3们提供了一个包含10万张城市街景图像的新数据集,并标注了个体和社会互动群体的边界

1

.框和标签。这些注释结合了人工创建的标签和MINGLE管道的输出结果,确保了语义丰富

9

0性和广泛覆盖现实世界场景。

5

2

:1介绍

v

i

x

r目标检测是计算机视觉中的基础任务,最先进的模型如YOLO和GroundingDINO在定

a

位离散且定义明确的对象方面表现出色,这些对象通常由简单的名词或短语描述[1,2,3,4]。然

而,越来越多的实际应用需要检测由语义复杂或抽象标准定义的区域,例如物体之间的相互作

用、社会行为或环境背景。这类任务需要比传统目标检测模型所能处理的更深层次的上下文理

解、关系和语义理解。

视觉-语言模型(VLMs)在大规模图像-文本数据集上训练,具备强大的上下文推理和语义

抽象能力。然而,它们通常无法准确将丰富的视觉描述定位到图像中的特定区域。这一限制主

要源自两个因素:(1)针对文本设计的顺序训练目标,以及(2)训练过程中缺乏用于复杂语义区

域定位的数据集和数据生成方法。

在本文中,我们提出了城市场景中的社交群体区域检测任务——即检测和定位那些正在进

行社会互动的个体群组。与传统的目标检测不同,后者针对的是物理实体,这项任务需要识别

涉及多个人体的抽象、新兴视觉模式。这些包括诸如共动性、接近度、身体姿态和空间布局等

多样化的视觉线索——定义社交群体而非孤立实体的信号。

从城市设计的角度来看,检测公共场所中的社会群体长期以来一直是行人观察研究的关键

重点。Whyte[5]、Gehl[6]和Jacobs[7,8]的开创性工作强调,观察人们如何在城市中聚集、逗留

1

图1:与零样本目标检测和标准基于视觉语言模型的方法的比较。我们的管道能够识别复杂城市

场景中进行社交互动的人群。

和互动对于理解城市活力至关重要。这些研究远远超出了简

文档评论(0)

1亿VIP精品文档

相关文档