基于全局平均池化判别像定位深度学习方法.pdfVIP

基于全局平均池化判别像定位深度学习方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

学习用于判别性定位的深度特征

BoleiZhou,AdityaKhosla,AaLapedriza,AudeOliva,Antonio

Torralba计算机科学与,

MIT{bzhou,khosla,aa,oliva,torralba}@csail.mit.edu

在这项工作中,我们重新审视了[13],中全

局平均池化层,并阐明了它如何显式地使卷积神经网

络(CNN)具有显著的定位能力,即使仅使用图像级

进行训练。虽然这一技术先前被提出作为训练正

则化的方法,但我们发现它实际上构建了一种通用的

可定位深度表示,揭示了CNN对图像中隐含注意力的

表现。尽管全局平均池化看似简单,我们在ILSVRC

图1.通过对我们类别激活映射(CAM)技术的简单修改全

2014上的目标定位任务中实现了37.1%的Top‑5错误率,且局平均池化层相结合,使得经过分类训练的CNN能够在一次

完全未使用任何边界框标注进行训练。我们在多种前向中同时对图像进行分类并定位类别相关的图像区域,

实验中展示了我们的网络能够定位具有判别性的图像例如用于刷牙的牙刷和用于砍树的链锯。

区域,尽管它仅被训练用于解决分类任务。

适用于各种广泛的任务,甚至包括那些网络最初并未

被训练执行的任务。如图(a)所示,一个在物体分类

1.引言

任务上训练的CNN能够成功地定位出动作分类中的判

Zhou等人的研究表明,尽管在训练过程别区域,即人类正在互动的物体,而不是人类本身。

中没有物置的监督信息,卷积神经网络

(CNN)各层中的卷积单元实际上表现得像物体检测尽管我们的方法看似简单,但在ILSVRC基准上

器。尽管卷积层具有这种显著的定位能力,但当使用全的弱监督目标定位任务中我们表现网络达

连接层进行分类时,这种能力却丢失了。到了37.1%的Top‑5测试错误率,这一结果已经相当接

一些流行的全卷积神经网络,例如Networkin近全监督AlexNet所达到的34.2%Top‑5测试错误率

Network(NIN)和Net,都试图避免。此外,我们证明了我们方法中深度特征的定位

使用全连接层,以在保持高性能的同时最小化参数数能力可以轻松迁移到其他识别数据集上,用于通用分

量。类、定位和概念发现。

为了实现这一点,使用全局平均池化(glo1.1.相关工作

balaveragepooling),它起到了结构正则化的作用,

卷积神经网络(CNNs)在各种视觉识别任务中取得

防止训练过程中的过拟合。在我们的实验中,我们发现

了显著的性能提升。的研究表明,尽管仅

这种全局平均池化层的优势并不仅仅局限于作为正则化

使用图像级别的进行训练,CNNs仍具有显著的定位

器——上,稍加调整,网络可以在最终层之前保持其

物体的能力。在本研究中,我们表明,通

显著的定位能力。这种调整使得在网络的一次前向传递

过使用适当的网络结构,我们可以将这种能力推广到不

中就能轻松识别出具有判别性的图像区域,

文档评论(0)

183****7931 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档