摘要
摘要
人物交互(Human-ObjectInteraction,HOI)检测作为连接图像感知和语义理解的重
要桥梁任务,致力于解析图像中“人-动词-物体”交互关系,广泛应用于智能安防、人机
交互等领域。当前HOI检测方法主要存在三方面核心挑战:(1)视觉特征在复杂场景中
对实例身份表征不稳定,导致相似交互关系分类模糊;(2)多模态特征融合中HOI视觉
表征与文本提示存在语义匹配错位,抑制模型的交互
摘要
摘要
人物交互(Human-ObjectInteraction,HOI)检测作为连接图像感知和语义理解的重
要桥梁任务,致力于解析图像中“人-动词-物体”交互关系,广泛应用于智能安防、人机
交互等领域。当前HOI检测方法主要存在三方面核心挑战:(1)视觉特征在复杂场景中
对实例身份表征不稳定,导致相似交互关系分类模糊;(2)多模态特征融合中HOI视觉
表征与文本提示存在语义匹配错位,抑制模型的交互
文档评论(0)