123-计算机视觉领域的深度学习模型（三）：ResNet【萌萌家】.pdf

下载文档

0
0
约3.37千字
约 5页
2025-03-14 发布于山东
举报
版权申诉
保障服务

123-计算机视觉领域的深度学习模型（三）：ResNet【萌萌家】.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

123|计算机视觉领域的深度学习模型（三）：ResNet

2018-09-12洪亮劼来自北京

《AI技术内参》

今天我们继续来讨论经典的深度学习模型在计算机视觉领域应用。今天和你分享的论文是《用

于图像识别的深度残差学习》（DeepResidualLearningforImageRecognition）[1]。这

篇论文获得了CVPR2016的最佳论文，在发表之后的两年间里获得了超过1万2千次的论

文引用。

论文的主要贡献

我们前面介绍VGG和GoogleNet的时候就已经提到过，在深度学习模型的前进道路上，一

个重要的研究课题就是神经网络结构究竟能够搭建多深。

这个课题要从两个方面来看：第一个是现实层面，那就是如何构建更深的网络，如何能够训练

更深的网络，以及如何才能展示出更深网络的更好性能；第二个是理论层面，那就是如何真正

把网络深度，或者说是层次度，以及网络的宽度和模型整体的泛化性能直接联系起来。

在很长的一段时间里，研究人员对神经网络结构有一个大胆的预测，那就是更深的网络架构能

够带来更好的泛化能力。但是要想真正实现这样的结果其实并不容易，我们都会遇到哪些挑战

呢？

一个长期的挑战就是模型训练时的梯度“爆炸”（Exploding）或者“消失”

（Vanishing）。为了解决这个问题，在深度学习研究刚刚开始的一段时间，就如雨后春笋般

爆发出了很多技术手段，比如“线性整流函数”（ReLu），“批量归一化”（Batch

Normalization），“预先训练”（Pre-Training）等等。

另外一个挑战是在VGG和GoogleNet的创新之后，大家慢慢发现单纯加入更多的网络层次

其实并不能带来性能的提升。研究人员有这样一个发现：当一个模型加入到50多层后，模型

的性能不但没有提升，反而还有下降，也就是模型的准确度变差了。这样看，好像模型的性能

到了一个“瓶颈”。那是不是说深度模型的深度其实是有一个限度的呢？

我们从GoogleNet的思路可以看出，网络结构是可以加深的，比如对网络结构的局部进行创

新。而这篇论文，就是追随GoogleNet的方法，在网络结构上提出了一个新的结构，叫“残

差网络”（ResidualNetwork），简称为ResNet，从而能够把模型的规模从几层、十几层

或者几十层一直推到了上百层的结构。这就是这篇文章的最大贡献。

从模型在实际数据集中的表现效果来看，ResNet的错误率只有VGG和GoogleNet的一

半，模型的泛化能力随着层数的增多而逐渐增加。这其实是一件非常值得深度学习学者振奋的

事情，因为它意味着深度学习解决了一个重要问题，突破了一个瓶颈。

论文的核心方法

那这篇论文的核心思想是怎样的呢？我们一起来看。

我们先假设有一个隐含的基于输入x的函数H。这个函数可以根据x来进行复杂的变换，比

如多层的神经网络。然而，在实际中，我们并不知道这个H到底是什么样的。那么，传统的

解决方式就是我们需要一个函数F去逼近H。

而这篇文章提出的“残差学习”的方式，就是不用F去逼近H，而是去逼近H(x)减去x的差

值。在机器学习中，我们就把这个差值叫作“残差”，也就是表明目标函数和输入之间的差

距。当然，我们依然无法知道函数H，在实际中，我们是用F去进行残差逼近。

F(x)=H(x)-x，当我们把x移动到F的一边，这个时候就得到了残差学习的最终形式，也就是

F(x)+x去逼近未知的H。

我们引用论文中的插图来看这个问题，就会更加直观。（图片来源：https://www.cv-

/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_C

VPR_2016_paper.pdf）

在这个公式里，外面的这个x往往也被称作是“捷径”（Shortcuts）。什么意思呢？有学者

发现，在一个深度神经网络结构中，有一些连接或者说层与层之间的关联其实是不必要的。我

们关注的是，什么样的输入就应当映射到什么样的输出，也就是所谓的“等值映射”

（IdentityMapping）。

遗憾的是，如果不对网络结构进行改进，模型无法学习到这些结构。那么，构建一个从输入到

输出的捷径，也就是说，从x可以直接到H（或者叫y），而不用经过F(x)，在必要的时候可

以强迫F(x)变0。也就是说，捷径或者是残差这样的网络架构，在理论上可以帮助整个网络

变得更加有效率，我们希望算法能够找到哪些部分是可以被忽略

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

123-计算机视觉领域的深度学习模型（三）：ResNet【萌萌家】.pdf