基于卷积神经网络的ImageNet分类器.pptVIP

下载本文档

15
0
约4.81千字
约 27页
2019-07-29 发布于福建
举报
版权申诉

基于卷积神经网络的ImageNet分类器.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

作者每个训练批次有128个样本，在其上采用随机梯度下降进行训练。设置增量为0.9，权值衰退因子为0.0005。作者发现小的权重衰退因子对于模型学习很重要，换句话说，权重衰退因子在这里不光是个正则化因子，它还可以减少模型错误。权值w的更新规则是： ? 其中，i是迭代次数，v是增量，ε是学习速率。我们将每一层的权值利用均值为0方差为0.01的高斯分布随机初始化，我们用常数1初始化第2、4、5卷积层和全连接隐藏层的偏置神经元（常数单元）。这种初始化通过向ReLUs提供正输入，加速了学习的早期过程。我们将其它层的偏置神经元初始化为0。在整个学习过程中，作者在所有层都使用人工调整的相等的学习速率。作者采用的启发式方法是当验证误差不在降低时，就把当前的学习速率除以10。学习速率初始化为0.01，并在结束前减小3次。（做三次除以10）作者大概用120万张图片把我们的网络训练了约90轮，在两个NVIDIA GTX 580 3GB GPU上这大概要5到6天。 * * * * * * * * 基于卷积神经网络的ImageNet分类器引言 1 数据集 2 构架 3 减少过度拟合 4 训练细节 5 目录 Contents 实验结果 6 引言 1 Part ? 本文中，作者训练了一个大型的深度卷积神经网络。作者将2010年ILSVRC挑战杯包含的120万高分辨率图像分类100种不同的类别。在测试数据方面，作者取得了远超过去最佳水平的效果，分别为17%和37.5%的top-5和top-1错误率。有着6000万参数和65万神经元的神经网络由5个部分连接Max池化层的卷积层和3个全连接层连带着1000路softmax组成。为了加快训练速度，作者采用非饱和神经元和一个高效的卷积操作的GPU执行器。为了降低全连接层的过拟合，作者采用了一项近期发展的已被证明有效的名为dropout的正则化方法。数据集 2 Part ImageNet是一个属于大约有22000类别的超过1500万标记的高分辨率图像的数据集。图片是从网上收集的并且被人工添加标识。 ILSVRC-2010是ILSVRC的唯一可用的有标识的测试集版本也是作者使用的版本，而它的测试集标签无法获取的。在ImageNet上，习惯上报告两种错误率：top-1和top-5，其中top-5错误率是正确标签不在被模型认为最可能的五个标签之中的测试图像的分数。 ImageNet由可变分辨率的图像组成，而我们的系统需要恒定的输入维度。因此，作者将图像欠采样到256*256的固定分辨率。给定一个矩形图像，首先重新缩放图像，使得短边的长度为256，然后从结果图像中裁剪出中心256 * 256的部分。除了从每个像素中减去训练集上的平均激活值之外，作者没有以任何其他方式预处理图像。所以作者在像素的（中心化的）原始的RGB值上训练了作者的网络。构架 3 Part 构架 ReLU的非线性在多GPU上训练局部响应归一化重叠池化 cnn总体构架如图2所示，这个网络包含八个带权重的层; 前五个是卷积层，其余三个全连接层。最后全连接层的输出被馈送到1000路softmax，其产生1000个类别标签上的分布。我们的网络最大化多项逻辑回归函数，这相当于在预测分布下最大化正确标签的对数概率的训练案例的平均值。 ? 图2：总体架构图，明确显示两个GPU之间职责的划分。一个GPU运行图形顶部部分，另一个运行图形底部部分。GPU仅在特定层通信。网络的输入是150,528维，网络剩余层中的神经元数为253,440-186,624-64,896-64,896-43,264-4096-4096-1000。第二，第四和第五卷积层的内核仅与位于同一GPU上的前一层中的那些内核映射相连。第三卷积层的内核连接到第二层中的所有内核映射。全连接层中的神经元连接到前一层中的所有神经元。响应标准化层连在第一和第二卷积层。3.4节中描述的最大池化层连在响应规范化层以及第五卷积层。将ReLU非线性应用于每个卷积和完全连接层的输出。第一卷积层用96个大小为11 * 11 * 3的过滤器以4个像素的步幅卷积224 * 224 * 3输入图像。第二卷积层将第一卷积层的（响应归一化和池化）输出作为输入，并用大小为256×5×48的过滤器对其进行卷积。第三，第四和第五卷积层彼此连接而没有任何池化层或标准化层。第三卷积层具有连接到第二卷积层的（响应归一化和池化）输出的大小为3 * 3 * 256的384个过滤器。第四卷积层具有384个大小为3 * 3 * 192的过滤器，并且第五卷积层具有大小为3 * 3 * 192的256个过滤器。全连接层各有4096个神经元。 1.去建模一个神经元的输出——作为以x为输入的函数f的标准方式