网站大量收购独家精品文档,联系QQ:2885784924

123-计算机视觉领域的深度学习模型(三):ResNet【萌萌家】.pdf

123-计算机视觉领域的深度学习模型(三):ResNet【萌萌家】.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

123|计算机视觉领域的深度学习模型(三):ResNet

2018-09-12洪亮劼来自北京

《AI技术内参》

今天我们继续来讨论经典的深度学习模型在计算机视觉领域应用。今天和你分享的论文是《用

于图像识别的深度残差学习》(DeepResidualLearningforImageRecognition)[1]。这

篇论文获得了CVPR2016的最佳论文,在发表之后的两年间里获得了超过1万2千次的论

文引用。

论文的主要贡献

我们前面介绍VGG和GoogleNet的时候就已经提到过,在深度学习模型的前进道路上,一

个重要的研究课题就是神经网络结构究竟能够搭建多深。

这个课题要从两个方面来看:第一个是现实层面,那就是如何构建更深的网络,如何能够训练

更深的网络,以及如何才能展示出更深网络的更好性能;第二个是理论层面,那就是如何真正

把网络深度,或者说是层次度,以及网络的宽度和模型整体的泛化性能直接联系起来。

在很长的一段时间里,研究人员对神经网络结构有一个大胆的预测,那就是更深的网络架构能

够带来更好的泛化能力。但是要想真正实现这样的结果其实并不容易,我们都会遇到哪些挑战

呢?

一个长期的挑战就是模型训练时的梯度“爆炸”(Exploding)或者“消失”

(Vanishing)。为了解决这个问题,在深度学习研究刚刚开始的一段时间,就如雨后春笋般

爆发出了很多技术手段,比如“线性整流函数”(ReLu),“批量归一化”(Batch

Normalization),“预先训练”(Pre-Training)等等。

另外一个挑战是在VGG和GoogleNet的创新之后,大家慢慢发现单纯加入更多的网络层次

其实并不能带来性能的提升。研究人员有这样一个发现:当一个模型加入到50多层后,模型

的性能不但没有提升,反而还有下降,也就是模型的准确度变差了。这样看,好像模型的性能

到了一个“瓶颈”。那是不是说深度模型的深度其实是有一个限度的呢?

我们从GoogleNet的思路可以看出,网络结构是可以加深的,比如对网络结构的局部进行创

新。而这篇论文,就是追随GoogleNet的方法,在网络结构上提出了一个新的结构,叫“残

差网络”(ResidualNetwork),简称为ResNet,从而能够把模型的规模从几层、十几层

或者几十层一直推到了上百层的结构。这就是这篇文章的最大贡献。

从模型在实际数据集中的表现效果来看,ResNet的错误率只有VGG和GoogleNet的一

半,模型的泛化能力随着层数的增多而逐渐增加。这其实是一件非常值得深度学习学者振奋的

事情,因为它意味着深度学习解决了一个重要问题,突破了一个瓶颈。

论文的核心方法

那这篇论文的核心思想是怎样的呢?我们一起来看。

我们先假设有一个隐含的基于输入x的函数H。这个函数可以根据x来进行复杂的变换,比

如多层的神经网络。然而,在实际中,我们并不知道这个H到底是什么样的。那么,传统的

解决方式就是我们需要一个函数F去逼近H。

而这篇文章提出的“残差学习”的方式,就是不用F去逼近H,而是去逼近H(x)减去x的差

值。在机器学习中,我们就把这个差值叫作“残差”,也就是表明目标函数和输入之间的差

距。当然,我们依然无法知道函数H,在实际中,我们是用F去进行残差逼近。

F(x)=H(x)-x,当我们把x移动到F的一边,这个时候就得到了残差学习的最终形式,也就是

F(x)+x去逼近未知的H。

我们引用论文中的插图来看这个问题,就会更加直观。(图片来源:https://www.cv-

/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_C

VPR_2016_paper.pdf)

在这个公式里,外面的这个x往往也被称作是“捷径”(Shortcuts)。什么意思呢?有学者

发现,在一个深度神经网络结构中,有一些连接或者说层与层之间的关联其实是不必要的。我

们关注的是,什么样的输入就应当映射到什么样的输出,也就是所谓的“等值映射”

(IdentityMapping)。

遗憾的是,如果不对网络结构进行改进,模型无法学习到这些结构。那么,构建一个从输入到

输出的捷径,也就是说,从x可以直接到H(或者叫y),而不用经过F(x),在必要的时候可

以强迫F(x)变0。也就是说,捷径或者是残差这样的网络架构,在理论上可以帮助整个网络

变得更加有效率,我们希望算法能够找到哪些部分是可以被忽略

文档评论(0)

133****9720 + 关注
实名认证
内容提供者

物业管理师证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

相关文档