MINGLE：用于城市场景中语义复杂区域检测的 VLMs.pdfVIP

下载本文档

0
0
约2.08万字
约 14页
2026-02-27 发布于北京
举报

MINGLE：用于城市场景中语义复杂区域检测的 VLMs.pdf

MINGLE：用于城市场景中语义复杂区域检测的VLMs

LiuLiu,AlexandraKudaeva,MarcoCipriano,

FatimehAlGhannam,FreyaTan,GerarddeMelo,AndresSevtsuk

MassachusettsInstituteofTechnology

HassoPlattnerInstitute

lyons66@,aleksandra.kudaeva@hpi.de

摘要

本理解公共空间中的群体级社会互动对于城市规划至关重要，它有助于设计充满活力且包

译容的社会环境。从图像中检测此类互动涉及解读诸如关系、邻近性和共动等微妙的视觉线索

——这些信号在语义上复杂，超出了传统目标检测的范围。为了解决这一挑战，我们引入了

中一项社会群体区域检测任务，该任务需要推断并空间定位由抽象的人际关系定义的视觉区

2域。我们提出了MINGLE（建模人际群体级参与），这是一个模块化的三阶段管道，整合了：

4(1)现成的人体检测和深度估计，(2)基于VLM的推理来分类成对的社会归属，以及(3)一

8种轻量级的空间聚合算法来定位社会关联的群体。为了支持这一任务并鼓励未来的研究，我

3们提供了一个包含10万张城市街景图像的新数据集，并标注了个体和社会互动群体的边界

.框和标签。这些注释结合了人工创建的标签和MINGLE管道的输出结果，确保了语义丰富

0性和广泛覆盖现实世界场景。

:1介绍

r目标检测是计算机视觉中的基础任务，最先进的模型如YOLO和GroundingDINO在定

位离散且定义明确的对象方面表现出色，这些对象通常由简单的名词或短语描述[1,2,3,4]。然

而，越来越多的实际应用需要检测由语义复杂或抽象标准定义的区域，例如物体之间的相互作

用、社会行为或环境背景。这类任务需要比传统目标检测模型所能处理的更深层次的上下文理

解、关系和语义理解。

视觉-语言模型（VLMs）在大规模图像-文本数据集上训练，具备强大的上下文推理和语义

抽象能力。然而，它们通常无法准确将丰富的视觉描述定位到图像中的特定区域。这一限制主

要源自两个因素：(1)针对文本设计的顺序训练目标，以及(2)训练过程中缺乏用于复杂语义区

域定位的数据集和数据生成方法。

在本文中，我们提出了城市场景中的社交群体区域检测任务——即检测和定位那些正在进

行社会互动的个体群组。与传统的目标检测不同，后者针对的是物理实体，这项任务需要识别

涉及多个人体的抽象、新兴视觉模式。这些包括诸如共动性、接近度、身体姿态和空间布局等

多样化的视觉线索——定义社交群体而非孤立实体的信号。

从城市设计的角度来看，检测公共场所中的社会群体长期以来一直是行人观察研究的关键

重点。Whyte[5]、Gehl[6]和Jacobs[7,8]的开创性工作强调，观察人们如何在城市中聚集、逗留

图1:与零样本目标检测和标准基于视觉语言模型的方法的比较。我们的管道能够识别复杂城市

场景中进行社交互动的人群。

和互动对于理解城市活力至关重要。这些研究远远超出了简

您可能关注的文档

用于增强视野依赖信号的移动说话人双耳化混合专家框架.pdf

文档评论（0）

1亿VIP精品文档

更多 >

MINGLE：用于城市场景中语义复杂区域检测的 VLMs.pdfVIP