深度残差网在图像分类上的应用(DeepResidualLearningforImageRecognition”)讲述.docx

下载文档 降价啦

54
0
约2.13万字
约 17页
2017-03-31 发布于湖北
举报
版权申诉
保障服务

深度残差网在图像分类上的应用(DeepResidualLearningforImageRecognition”)讲述.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深度残差网在图像分类上的应用(DeepResidualLearningforImageRecognition”)讲述

深度残差网学习在图像分类上的应用何凯明张翔宇任少卿孙剑微软研究院 {kahe, v-xiangz, v-shren,jiansun}@ 摘要当前，深度神经网络比普通神经网络更难训练。我们提出了一种减轻网络训练负担的残差学习框架，这种网络比以前使用过的网络本质上层次更深。我们明确地重定义这层为学习输入层相关的残差函数，而不是学习未知的函数。同时，我们提供了全面经验数据，这些数据证明残差网络更容易优化，并且可以从深度增加中大大提高精度。我们在ImageNet数据集用152 层--比VGG网络[41]深8倍的深度神经网络来评估残差网络，但它仍具有较低的复杂度。在ImageNet测试集中，这些残差网络整体达到了3.57%的误差。该结果在2015年大规模视觉识别挑战赛分类任务中赢得了第一。此外，我们还用了100到1000层深度分析了的CIFAR-10。对于大部分视觉识别任务，深度表示是非常重要的。正式由于使用极深的表示，在COCO对象检查数据集上，我们就得到了近28%相关的改进。深度残差网络是我们提交给ILSVRC和COCO 2015竞赛[1]的基础，而且在ImageNet检测任务，ImageNet定位，COCO检测和COCO分割等领域赢我们也都获得了第一。 1. 简介深度卷积网络[21,22]引领了一系列图像分类上的突破[21,50,40]。深度网络通过层的叠加(深度)，自然而然的以一种端到端的多层模式集成了低/中/高级的特征[50]和分类器，并且特征的“水平”都能变得更加丰富。最近证据[41,44]表明网络深度非常重要，并且ImageNet数据集[36]挑战赛中领先的结果[41,44,13,16]都是在探索“很深”[41]的模型，这些模型从16层[41]到30层[16]。许多其他的重大的视觉识别任务[8,12,7,32,27]也都从深度模型中获益良多。在深度的意义驱使下，一个问题出现了：学习更好的网络是不是和叠加层数一样容易呢？解决这个问题的一个障碍就是那个重名昭著的梯度消失/爆炸[1,9]问题，他从一开始就阻碍了网络的收敛。然而，这个问题很大程度上被归一的初始化[23,9,37,13]和中间层归一化[16]解决了，它们确保数10层的网络开始用反向传播算法以随机梯度下降(SGD)的方式收敛[22]。当更深的网络能够开始收敛时，降级问题的问题开始出现：随着网络深度的增加，精准度开始饱和（这并不令人吃惊），然后迅速下降。预料之外的是，在[11,42]中报道并且经过我们实验验证发现，精准度的下降并不是由过度拟合造成的，而且在合适的深度模型中增加更多的层数，会造成更高的训练误差。图1展示了一个经典的实例。图 1 CIFAR-10数据集上的20层和56层的“平”网络的训练误差（左）和测试误差（右）。更深的网络有更高的训练误差和测试误差，图4显示了在ImageNet也有相似的现象（在训练集上精度）降级显示并不是所有的系统都容易去优化。我们考虑一个较浅的体系结构与在深度增加了更多层的体系结构。这里存在一个方案是去构造一个更深的模型：这个增加的层是一个恒等映射，其它的层是从学习到的浅的模型里面复制过来的。这个构造方案的存在表明一个更深的模型应该不会产生毕浅层模型更高的训练误差。但是实验结果表明我们当前不能找到一个与之前的构造方案一样好或者更好的解决方案（或者不能在可行时间内做到）。图 2 残差学习：构造块在本论文中，我们引入了一个深层次的残差学习框架来解决精准度下降问题。我们明确地让这些层适合残差映射，而不是寄希望于每一个堆叠层直接适合一个所需的底层映射。形式上，把作为所需的基本映射，让堆叠的非线性层适合另一个映射。那么原映射便转化成：。我们假设优化残差的映射，比优化原来未引用的映射更容易。极端情况下，如果恒等映射是最佳的，那么将残差的映射推为零，就比用一堆非线性层来适应恒等映射更容易。公式可以通过“快捷连接”前馈神经网络实现（图2）。快捷连接[2,34,49]是那些跳过中的一层或更多层。在我们的情景中，快捷连接简单的执行恒等映射，并将它们的输出添加到叠加层的输出（图2）。恒等快捷连接既不产生额外的参数，也会增加不计算的复杂度。整个网络仍然可以完全使用反向传播的SGD，并且可以在不修改结构的情况下很容易的使用通用库来实现（例如Caffe）。我们在ImageNet[36]上进行了综合性的实验展示精准度下降问题，并评估我们的方法。我们发现：（1）我们的特别深的残差网很容易优化，但深度增加时，对应的“平面”网（即简单的堆栈层）表现出更高的训练误差。（2）深度残差网络能够在大大增加深度中获得高精准度，产生的结果本质上优于以前的网络。相似的现象同样出现在了CIFAR-10集[20]中，这表明了优化的难度，以及我们方法影响的