一种防止过拟合的方法.pptVIP

下载本文档

1
0
约2.71千字
约 23页
2017-06-20 发布于北京
举报
版权申诉

一种防止过拟合的方法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

神经网络的训练使用随机梯度下降法，同样在这里也适用，但是不同的一点是dropout是随机选取的小批量的thin network，这里用到很多算法，在dropout这里也适用，对于dropout特别有用的就是上面的球形限制，预训练一般是在训练无标签数据时适用 * 数据足够的时候，不必使用dropout应为不大可能产生过拟合 * 大学习率与高动量，最大归一化 * 具体来说就是将随机化的dropout变为确定性的，比如对于Logistic回归，其dropout相当于加了一个正则化项 * 一种防止过拟合的方法—Dropout的介绍 College of Information Engineering 贺敏 November 12, 2015 Company Logo Outline Dropout的背景及产生动机 Dropout模型的描述 Dropout的部分实验结果进一步了解Dropout 总结 Company Logo Dropout的背景及产生动机背景：深度神经网络具有多层非线性的隐含层，这使得它可以学习输入输出之间复杂的关系，然而在有限的训练数据，这将会产生采样噪音，即使训练数据和实际数据属于相同的分布，但是数据模型在训练集里表现非常满意，但是一旦应用到真实业务实践时，效果大打折扣。这就是过拟合 Company Logo Dropout的背景及产生动机如何处理过拟合： early stopping、数据集扩增（Data augmentation）、 L1 Regularization L2 regularization dropout Company Logo Dropout的背景及产生动机几种方法的区别： L1、L2正则化是通过修改代价函数来实现的 Dropout则是通过修改神经网络本身来实现的 Data augmentation是通过修改数据实现的 Company Logo Dropout的背景及产生动机产生动机：来源于有性繁殖基因的选择增加了随机性，在进化过程中，基因不能依赖于其他的基因，也就增强了健壮性同理，随机的删掉隐含层的一些节点后，同样也会增强其他节点提取特征的能力 Company Logo Dropout的模型描述 Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了. Company Logo Dropout的模型描述如图所示，在训练时，节点按照概率P决定是否工作。在测试时，不使用Dropout，但是要按比例的缩放权重，如上图b所示，这样才能保证预期输出与实际输出一致。 Company Logo Dropout的模型描述假设一个神经网络有L个隐含层l∈{1,2...L} 标准的前向神经网络是：其中激活函数 Company Logo Dropout的模型描述使用Dropout后：在测试时的权重进行缩放 Company Logo Dropout率的选择与训练过程经过交叉验证，隐含节点dropout率等于0.5的时候效最好，原因是0.5的时候dropout随机生成的网络结构最多。 dropout也可以被用作一种添加噪声的方法，直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大（0.8） Company Logo Dropout率的选择与训练过程对参数w的训练进行球形限制,对dropout的训练非常有用。球形半径c是一个需要调整的参数。可以使用验证集进行参数调优。这就叫 max-norm regularization，可以提高随机梯度下降效果使用pretraining方法也可以帮助dropout训练参数，在使用dropout时，要将所有参数都乘以1/p。这样可以保证dropout的输出与预训练的输出一致 Company Logo Dropout的部分实验结论论文中采用的数据集是： MNIST : 手写体数据 TIMIT : 语音识别的标准语音基因 CIFAR-10 and CIFAR-100 : 自然图像 Street View House Numbers data set (SVHN) : 谷歌街景的房子 ImageNet : 图像数据库 Reuters-RCV1 : 新闻文章的数据库 Company Logo Dropout的部分实验结论这里我们只看MNIST 训练集有60000个测试集为10000个维度是784(28 *28 grayscale) 所有采用Dropout的网络中隐含层：P=0.5 输入层：P=0.8 C