利用对象场景语义进行大规模理解.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

利用对象和场景语义进行大规模理解

†,付彦伟,§,LeonidSigal§

†智能信息处理重点,复旦大学计算机科学学院迪士尼§

{zxwu,ygj}@,{yanwei.fu,lsigal}@



大规模动作识别和分类是计算机视觉中的重

要问题。为了解决这些问题,我们提出了一种新的基

于对象和场景的语义融合网络和表示方法。我们的语

义融合网络使用三层神经网络结合了三类信息:(i)基

于帧的低级CNN特征,(ii)来自最先进的大规模C

NN对象检测器的对象特征,该检测器训练用于识别

20K个类别,以及(iii)来自最先进的CNN场景检测器

的场景特征,该检测器训练用于识别205个场景。训练

后的网络在两个复杂的大规模数据集——

ActivityNet和FCVID上实现了监督活动和分类的图1.所对象‑场景语义融合(OSF)网络及其在多个任务

改进。此外,通过检查和反向融合网络中的信息,中的应用示意图。

可以发现类别与对象/场景之间的语义关系(相关

因此,在给定内的外观变异性通常大于跨的

性)。这些类别‑对象/类别‑场景的关系反过来

变异性,使得识别变得。

可以用作类别的语义表示。我们通过零样本动作/

分类和聚类实验展示了这种语义表示的有效性。

在计算机视觉中,理解通常以动作/活动识别

或定位的形式进行(这将范围限制在以人为的事

件和内容上);而通用分类[12]则研究得较

少。多年来,这两个领域的重点主要在于学习基于视

1.引言

频的表示方法(例如HoG、HoF或MBH[35]),并

能够捕捉和并在社交平台上的设备结合监督(或弱监督[5,25,29])分类器进行识别/分

的普遍可用性和使用令人惊叹;据估计,用户每秒上类。深度学习,尤其是卷积神经网络(CNN)的成功,

传到的时长为1−5小时。这种视觉媒为端到端地联合学习判别性的分层帧基[13]或时空表

体的增长需要强大的、可扩展的方法来进行索引、示[31,34]以及分类器了机会。的CNN方

搜索和。然而,在不受限制的、通常是用户生成法在有大量标注数据的数据集上表现出显著的性能提

的中进行通用理解极具性。在语义升[31]。然而,从有限的标注数据中学习或将这些方

内容(例如,音乐会)和该内容的外观(例如,从观法从最多几百个类别扩展到数千甚至数万个类别的能

众或观察到的内容)方面差异很大。相同或类似力,对社区来说是一个重大;特别是后者,由于

的内容可以从多种视角录制(例如,前排或后排视线难以将注释扩展到数百万以及实际无法找到和标

受阻的座位),在广泛的条件下(例如,自然光注罕见。

或舞台灯光),并且可以是几乎任意长度的。

HarnessingObjectandSceneSemanticsforLarge-Scale

文档评论(0)

182****0328 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档