情境识别：基于视觉语义角色标注与图像理解研究.pdfVIP

下载本文档

2
0
约8.87万字
约 20页
2025-12-09 发布于江苏
举报
版权申诉

情境识别：基于视觉语义角色标注与图像理解研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

情境识别：用于图像理解的视觉语义角色标记

111,21

MarkYatskar,LukeZettlemoyer,AliFarhadi计算机科学与工

程，大学西雅图，州2(AI2)，西雅图，

州[my89，lsz，ali]@cs.washington.edu

图1.六幅图像描绘了参与者、物体、物质和位置在活动中发挥作用的情况。每幅图像下方是一个总结情况的已实现框架：左列（蓝色）

列出了特定于活动的角色（源自FrameNet，一个广泛覆盖的动词词典），而右列（绿色）列出了每个角色的值（来自ImageNet）。

显示了三种不同的活动，强调视觉属性在角色值之间可能存在很大差异（例如，剪羊毛看起来与剪狗指甲非常不同）。

抽象的羊毛）以及这些实体如何相互关联，即它们所扮演的

本文介绍了情境识别，即对图像所描绘的情境进角色（例如，人进行剪毛，剪刀是剪毛工具，羊毛是从

行简明概括的问题，包括：（1）主要活动（例如剪草），羊身上剪下来的）。在本文中，我们主张对此类语义角

（2）参与的演员、物体、物质和地点（例如人、剪刀、色进行显式编码，这是当前识别范式和图像理解中

羊、羊毛地）以及最重要的（3）这些参与者在活的一个关键要素。我们引入情境识别，这是一个涉及预

动中扮演的角色（例如，人在剪草，剪子是他的工具，测活动以及参与者、物体、物质和位置以及这些部分如

羊毛正在从羊身上剪下来，并且剪辑位于字段中）。何组合在一起（语义角色）的问题。例如，图1中最左

我们使用由语言学家开发的动词和角色词典边的表显示了这样一种表示：一种情况：一名男子（代

FrameNet来定义大量可能的情况，并收集包含超过理）在田地（地点）中使用剪刀（工具）从绵羊（源）

500个活动、1,700个角色、11,000个对象、上剪下（活动）羊毛（物品）。

125,000个图像和200,000个独特情况的大规模数据情境识别概括了活动识别和人与物体的交互，使

集。我们还引入了结构化预测基线，并表明，在以活用角色分配来定义参与者、物体、物质和位置如何参与

动为的图像中，情境驱动的对象和活动预测优于活动。例如，图1的图像对描绘了相同的整体活动，但

独立的对象和活动识别。当参与实体因不同角色而变化时，它们看起来非常不

1。简介同。以前的工作已经提出了完整情况的某些方面的模

型，包括活动场景模型[35]以及与一些原型对象配对

当我们图像时，我们不仅可以立即轻松地识别出正

的非常具体的活动模型，例如音乐剧。

在发生的事情（例如，剪裁），还可以识别出涉及的人物和

内容（例如，一个人、剪刀、一只羊、

SituationRecognition:

VisualSemanticRoleLabelingforImageUnderstanding

您可能关注的文档

文档评论（0）

huang + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

情境识别：基于视觉语义角色标注与图像理解研究.pdfVIP