- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度迁移学习
深度迁移学习
一、 深度学习
1) ImageNet Classification with Deep Convolutional Neural Networks
主要思想:
该神经网络有 6000 万个参数和 650,000 个神经元,由五个卷积层,以及某些卷积层后跟着的 max-pooling 层,和三个全连接层,
还有排在最后的 1000-way 的 softmax 层组成。使用了非饱和的神经元和一个非常高效的 GPU 关于卷积运算的工具。
1、采用了最新开发的正则化方法,称为“dropout”。
2、采用 ReLU 来代替传统的 tanh 引入非线性,;
3、采用 2 块显卡来进行并行计算,减少了更多显卡需要主机传递数据的时间消耗,在结构上,部分分布在不同显卡上面的前后层
节点之间无连接,从而提高了训练速度;
4、同层相邻节点的响应进行局部归一化提高了识别率(top5 错误率降低 1.2%);
5、有交叠的 pooling (top5 错误率降低 0.3%);
体系架构:
(1)ReLU
训练带 ReLUs 的深度卷积神经网络比带 tanh 单元的同等网络要快好几倍。如下图,带 ReLU 的四层卷积神经网络(实线)在 CIFAR-10
数据集上达到 25%训练误差率要比带 tanh 神经元的同等网络(虚线)快六倍。
(2)在多个 GPU 上训练
(3)局部响应归一化
具体见 Very Deep Convolutional Networks for Large-Scale Image Recognition
(4)重叠 Pooling
每个网格间隔距离为 s,而每一次进行降采样将从网格中心为中心,采样 z*z 个像素。如果 s=z,则与传统方法相同,而如果 sz,
则会进行重复采样。本文章将 s=2,z=3,成功的将 Top-1 和 Top-5 的错误率分别降低了 0.4%和 0.3% (与s=2,z=2 相比)。而且,在
实验中发现,采用重叠采样将会略微更难产生过拟合。
(5)总体结构
该网络包括八个带权层;前五层是卷积层,剩下三层是全连接层。最后一个全连接层的输出被送到一个 1000-way 的 softmax 层,
其产生一个覆盖 1000 类标签的分布。
响应归一化层跟在第一、第二个卷积层后面。最大 Pooling 层,跟在响应归一化层以及第五个卷积层之后。ReLU 非线性应用于每
个卷积层及全连接层的输出。第一个卷积层利用 96 个大小为 11×11×3、步长为4 个像素的核,来对大小为 224×224×3 的输入图像
进行滤波。第二个卷积层是 256 个大小为 5×5×48,第三、第四和第五个卷积层彼此相连,没有任何介于中间的 pooling 层与归一化
层。第三个卷积层有 384 个大小为 3×3×256 的核,第四个卷积层拥有 384 个大小为 3×3×192 的核,第五个卷积层拥有 256 个大小
为 3×3×192 的核。全连接层都各有 4096 个神经元。
(6)防止过拟合
• 数据增强
数据增强的第一种形式由生成图像转化和水平反射组成。该网络通过提取五个 224×224 的碎片(四个边角碎片和中心碎片)连同
它们的水平反射(因此总共是十个碎片)做出了预测,并在这十个碎片上来平均该网络的 softmax 层做出的预测。
数据增强的第二种形式包含改变训练图像中RGB 通道的强度。遍及整个 ImageNet训练集的 RGB 像素值集合中执行 PCA。对于每个
训练图像,我们成倍增加已有主成分,比例大小为对应特征值乘以一个从均值为 0,标准差为 0.1 的高斯分布中提取的随机变量。
• Dropout
(7)学习的详细过程
使用随机梯度下降法和一批大小为 128、动力为 0.9、权重衰减为 0.0005 的样例来训练。
我们用一个均值为 0、标准差为 0.01 的高斯分布初始化了每一层的权重。我们用常数 1 初始化了第二、第四和第五个卷积层以及
全连接隐层的神经元偏差。在其余层用常数 0 初始化神经元偏差。
对于所有层都使用了相等的学习率,在整个训练过程中手动调整的。当验证误差率在当前学习率下不再提高时,就将学习率除以
10。学习率初始化为0.01,在终止前降低三次。
2) Very Deep Convolutional Networks for Lar
原创力文档


文档评论(0)