- 0
- 0
- 约2.08万字
- 约 14页
- 2026-02-27 发布于北京
- 举报
MINGLE:用于城市场景中语义复杂区域检测的VLMs
LiuLiu,AlexandraKudaeva,MarcoCipriano,
FatimehAlGhannam,FreyaTan,GerarddeMelo,AndresSevtsuk
MassachusettsInstituteofTechnology
HassoPlattnerInstitute
lyons66@,aleksandra.kudaeva@hpi.de
摘要
本理解公共空间中的群体级社会互动对于城市规划至关重要,它有助于设计充满活力且包
译容的社会环境。从图像中检测此类互动涉及解读诸如关系、邻近性和共动等微妙的视觉线索
——这些信号在语义上复杂,超出了传统目标检测的范围。为了解决这一挑战,我们引入了
中一项社会群体区域检测任务,该任务需要推断并空间定位由抽象的人际关系定义的视觉区
2域。我们提出了MINGLE(建模人际群体级参与),这是一个模块化的三阶段管道,整合了:
v
4(1)现成的人体检测和深度估计,(2)基于VLM的推理来分类成对的社会归属,以及(3)一
8种轻量级的空间聚合算法来定位社会关联的群体。为了支持这一任务并鼓励未来的研究,我
4
3们提供了一个包含10万张城市街景图像的新数据集,并标注了个体和社会互动群体的边界
1
.框和标签。这些注释结合了人工创建的标签和MINGLE管道的输出结果,确保了语义丰富
9
0性和广泛覆盖现实世界场景。
5
2
:1介绍
v
i
x
r目标检测是计算机视觉中的基础任务,最先进的模型如YOLO和GroundingDINO在定
a
位离散且定义明确的对象方面表现出色,这些对象通常由简单的名词或短语描述[1,2,3,4]。然
而,越来越多的实际应用需要检测由语义复杂或抽象标准定义的区域,例如物体之间的相互作
用、社会行为或环境背景。这类任务需要比传统目标检测模型所能处理的更深层次的上下文理
解、关系和语义理解。
视觉-语言模型(VLMs)在大规模图像-文本数据集上训练,具备强大的上下文推理和语义
抽象能力。然而,它们通常无法准确将丰富的视觉描述定位到图像中的特定区域。这一限制主
要源自两个因素:(1)针对文本设计的顺序训练目标,以及(2)训练过程中缺乏用于复杂语义区
域定位的数据集和数据生成方法。
在本文中,我们提出了城市场景中的社交群体区域检测任务——即检测和定位那些正在进
行社会互动的个体群组。与传统的目标检测不同,后者针对的是物理实体,这项任务需要识别
涉及多个人体的抽象、新兴视觉模式。这些包括诸如共动性、接近度、身体姿态和空间布局等
多样化的视觉线索——定义社交群体而非孤立实体的信号。
从城市设计的角度来看,检测公共场所中的社会群体长期以来一直是行人观察研究的关键
重点。Whyte[5]、Gehl[6]和Jacobs[7,8]的开创性工作强调,观察人们如何在城市中聚集、逗留
1
图1:与零样本目标检测和标准基于视觉语言模型的方法的比较。我们的管道能够识别复杂城市
场景中进行社交互动的人群。
和互动对于理解城市活力至关重要。这些研究远远超出了简
您可能关注的文档
最近下载
- 成都市金牛区2025年网格员面试题库及答案.docx VIP
- 2025大兴安岭职业学院单招《数学》考试综合练习及答案详解(考点梳理).docx VIP
- 某某市委副书记在全市关工委工作会议上的讲话.doc VIP
- 2026年南阳农业职业学院单招职业技能考试题库及答案详解(夺冠).docx VIP
- (2026)中华护理学会成人肠内营养支持护理团标PPT课件.pptx VIP
- 丰田工程标准 TSG 3109G 合金化镀锌钢板.pdf VIP
- 耳穴疗法治疗失眠应用规范.pptx
- (高清版)ZT 0217-2020 石油天然气储量估算规范.pdf VIP
- 浙江农村信用社招聘-2025宁波慈溪农村商业银行春季招聘90人笔试备考题库及答案解析.docx VIP
- 村“两委”干部培训党课讲稿:新时代党员的责任与担当.docx VIP
原创力文档

文档评论(0)