深度学习模型搭建及过拟合问题研究.docVIP

下载本文档

19
0
约4.96千字
约 11页
2018-09-14 发布于福建
举报
版权申诉

深度学习模型搭建及过拟合问题研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习模型搭建及过拟合问题研究

深度学习模型搭建及过拟合问题研究　　摘要：深度学习是机器学习研究中的一个新的领域，它模仿人脑的机制来解释数据，例如图像，声音和文本。文章介绍了一种多层感知器结构的深度学习神经网络模型，并推导了其实现的算法。用数字识别实验验证了该模型及其算法的可靠性；验证了过拟合的发生与训练集的大小以及神经网络的复杂度之间的重要关系。过拟合问题的研究对降低误差有重要的意义。　　关键词：深度学习；神经网络；隐藏层；过拟合　　中图分类号：TP391.9 文献标志码：A 文章编号：1006-8228（2018）02-14-04 　　Abstract： Deep learning is a new field in machine learning research. It simulates the mechanism of human brain to interpret data， such as image， voice and text. In this paper， a deep learning neural network model of multilayer perceptron structure is introduced and its implementation algorithm is derived. The reliability of the model and its algorithm are also verified by some digital recognition experiments， and find that the size of the training set and the complexity of neural networks are highly related with the over-fitting. It is of great significance to study the problem of over-fitting to reduce the error. 　　Key words： deep learning； neural networks； hidden layer； over-fitting 　　0 引言　　深度?W习的概念源于人工神经网络的研究[3]。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层来表示属性类别或特征，以发现数据的分布式特征表示。在深度学习泛化（generalization）过程中，主要存在两个挑战：欠拟合和过拟合（overfitting）。欠拟合是指模型不能在训练集上获得足够小的误差，而过拟合是指训练误差和测试误差之间的差距太大。　　1 模型设计　　1.1 多层感知器结构[1] 　　本文采用多层感知器（MLP）作为训练模型，它是一种前馈人工神经网络模型。它包括至少一个隐藏层（除了一个输入层和一个输出层以外）本文采用的多层感知器模型中的信号流传播如下：　　⑴ 输入：yi（n）为i神经元的输出，为下一个神经元j的输入。　　⑵ 诱导局部区域：神经元j被它左边的yi（n）神经元产生的一组函数信号所馈，神经元j产生诱导局部区域。　　⑶ ???活函数：神经元j输出处的函数信号yi（n）为，其中为j层神经元的激活函数。采用激活函数的一个好处是引入非线性因素，使神经网络变成非线性系统。本文采用Sigmoid函数作为激活函数，其定义为：，导数可用自身表示：　　⑷ 误差：k为输出神经元，则误差ek（n）=dk（n）-yk（n），其中dk（n）为信号输出。　　1.2 代价函数　　代价函数是用来反映/度量预测结果yk（n）与实际结果dk（n）的偏差，本文采用最小平方（LMS）算法来构造代价函数：　　1.3 随机梯度下降算法[4] 　　本文采用随机梯度下降算法（SGD）进行迭代，在此算法中，对的连续调整是在最速的方向进行的，即它是与梯度向量方向相反的。记为，因此，梯度下降算法一般表示为：。其中这里η是一个常数，称为学习率参数，是梯度向量值。　　1.4 反向传播算法[5] 　　本文采用的反向传播算法以与1.3节类似的方式对突触权值应用一个修正值，它正比于偏导数，即：　　1.4.1 神经元j是输出节点　　图1为输出神经元j细节的信号流图。　　根据微分的链式规则，可以将这个梯度表示为：　　本文采用Sigmoid函数作为激活函数，即：　　为了方便，我们定义：　　1.4.2 神经元j是隐藏层节点　　见图1，我们对式中通过链式规则后的偏导数可以看到：，神经元k是输出节点，故：　　以上为倒数第一个隐藏层的传播公式，得出了