- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Anton Glushchenko et al. / Procedia Computer Science 186 (2021) 202–209 PAGE 209
PAGE 210 Anton Glushchenko et al. / Procedia Computer Science 186 (2021) 202–209
用泰勒级数修正反向传播法提高离线神经网络训练精度
摘要
本研究的目的是导出新的、更有效的方程来调整神经网络的参数,它比反向传播法的公式更有优势。为此,提出了一种神经网络训练的目标函数,通过将每个网络层的抽象理想输出扩展成泰勒级数来进行修改。这种分解将在接近所考虑的层的当前输出的点实现。修正的目标函数梯度是根据网络参数的理想值和实际值之间的差值来计算的。因此,获得的权重和偏差调整方程(针对每一层)不仅取决于前一层的输出,还取决于其导数。与反向传播方法相比,它们允许减少离线神经网络训练时间。导出的公式可简化为反向传播法的公式。这证明了他们发展的正确性。利用MNIST手写字符识别任务证明了新训练方程的有效性。考虑到多层结构具有不同的激活函数和层数,就新公式而言,获得了相同的识别精度,但是比传统的反向传播更快。
关键词:神经网络;线下培训;反向传播;泰勒级数;准确性;MNIST;训练方程;
1。 介绍
目前,神经网络是人类活动各个领域解决各类应用问题的有效工具:图像识别、分类和聚类、识别、预测和动态系统控制等。[1, 2]. 与用于相同任务的经典方法相反,神经网络不需要被解决问题的结构和内部属性的知识。相反,它们只处理收集的输入和输出数据。它们的综合总是分为结构综合和参数综合[3]。结构综合是定义神经网络的一种类型(多层感知器、径向基、卷积、递归神经网络)、隐藏层数(如果有的话)和特殊层数(卷积、LSTM、GRU等)。输入和输出的数量。考虑到参数综合,要为每一层找到神经网络的最优权值和偏差。
它们将提供所需的精度。参数综合是一项独立的任务,可以表示为搜索目标函数的最小值。它取决于网络输出的实际值和要求值之间的误差。对于特定问题,选择一种方法来最小化上述误差(训练网络)通常是一个非常复杂的问题,这既确保了高精度,又最小化了训练时间。在这种情况下,开发人员的任务是在特定的机器学习软件包中尝试所有可用的优化方法,以找到最合适的方法。
用于训练神经网络的所有优化方法可以分为两大类——一阶和二阶方法[1,2,3,4]。一阶方法基于梯度下降法,在误差面上沿下降方向搜索。它只使用目标误差函数关于可调网络参数的一阶偏导数。这种用于寻找神经网络权重和偏差的方法被称为误差反向传播[5]。许多实践和理论研究表明了它的主要缺点。具体而言,它们包括:在非凸目标函数的情况下陷入局部最小值的高可能性、计算整个训练集上的梯度的高时间和内存消耗、最优学习速率值选择的问题、处理不平衡训练集的困难。
这就是为什么现代机器学习软件包使用不同的经典误差反向传播方法。它们允许在解决实际问题时获得更高的性能和精度,因为它们包含了解决上述问题的一些特性[6]。随机梯度下降法和小批量梯度下降法不是在整个训练集上计算误差(目标)函数的梯度,而是只计算一个或一批样本的梯度。在传统的反向传播方程中引入动量和正则化允许在非凸优化的情况下处理过拟合和局部极小的问题。在不平衡训练集的条件下解决这种优化问题,使用神经网络学习速率和动量的动态修改(它们的值在训练过程中被改变),这些修改在自适应优化算法组(Adadelta、RMSProp、Adam等)中实现。[7, 8, 9].
二阶方法是基于目标函数通过平方函数的逼近,并借助其分解成泰勒级数。这允许不仅使用关于目标函数的梯度的信息,而且使用关于其曲率的信息,更快地达到其最小值。同时,这种方法需要计算黑森数,即。目标函数相对于网络可调参数(权重和偏差)的二阶偏导数。所有的二阶方法都可以分为牛顿法和拟牛顿法,牛顿法需要海森的解析计算,拟牛顿法的数值是近似的[4]。拟牛顿方法包括勒温伯格-马夸特算法[10],BFGS算法[4]及其有限内存使用的修改[4,11]。与一阶方法相比,所有二阶方法都具有更快的收敛速度(通常是二次的)。然而,它们的实现更加困难,需要更大的内存容量[4,12]。
因此,从分析中可以看出,开发有效和通用的误差函数最小化方法,保证神经网络的低训练时间和高精度,是一个重要和实际的问题。上面考虑的所有一阶和二阶方法都集中于推导额外的公式来调整神经网络的超参数(特别是学习速率和动量)。然而,目标函数最小化的质量不仅取决于这些值,还取决于雅可比的计算精度(目标函数相对于权重和偏差的梯度)。在用链式公式计算雅可比矩阵求导数的条件下,得到了误差反向传播法的公式。这种公式的应用是合理的,因为目标函数不
文档评论(0)