关于前馈网络的综述.pptVIP

下载本文档

9
0
约 25页
2017-08-29 发布于上海
举报
版权申诉

关于前馈网络的综述.ppt

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于前馈网络的综述引言神经网络计算的最显著的能力是能够进行监督式学习(supervised learning)，而能逼近任意Borel可测函数的多层前馈(feedforward)网络则是实现这种学习的典型网络。作为前馈网络的代表，反向传播网络(BP)在1986年的文献提出后，因其概念的清晰和简单而引起了广泛注意；另一方面，作为网络学习的一种优化算法，误差的反向传播机理早在1974年文献就已发现，可惜未引起注意，因此，Werbos 认为，BP称为多层感知器 (MLP)更为合适。 MLP的两个最明显的弱点是缓慢的收敛速度和对数法参数(如学习因子) 的依赖性。自MLP问世以来，许多研究试图通过对训练算法的进一步优化以解决上述问题，多数被冠以“加速技术”，引入了诸如递推最小二乘法，共轭梯度法和扩展Kalman滤波等技术；与此同时，不少学者将MLP与各自的背景相结合，对前馈网络的结构进行了改造，提出了诸如子波网络，模糊网络和径向基函数等网络。与围绕MLP的研究相对照的是关于CMAC的研究。CMAC能进行快速学习并具有某种程度的插值和逼近能力，但是，在1975年由Albus提出后的很长一段时间内被忽视了，直到近年来才逐步得到重视，其中，最具有代表性的工作是由Miller等从1987年开始的关于机器人控制的研究，其他研究如过程控制，及学习收敛性的分析。训练算法，网络结构，和输入信息的表达是影响前馈网络学习性能的三个主要因数，输入信号的表达决定着网络和训练样本集的大小，通常，在保证样本的特征性前提下应使样本数尽量减少，以使训练更容易进行。一旦样本集确定，训练算法和网络结构就成为决定网络性能的内在因素。下面将从这两个方面对前馈网络进行阐述和分析。 1 训练算法 MLP的训练算法可分为两种，即批处理模式(batch-mode)和顺序处理模式(sequential-mode)。在批处理模式中，权值的修正只在对训练样本集中的所有样本都处理过才进行，而顺序处理是对样本进行逐个学习,所以，有时也称为“在线学习”模式。无论批处理还是顺序处理，都要用到误差性能指标(E)的梯度，其中，(E)是指网络实际响应与期望输出之间的差异，通常用对各个样本的误差的平方和来表示。 1.1 批处理算法优化算法的一种常用分类方法是根据“阶”来确定，即 E的导数的阶次。第一类算法只用到 E本身而毋需导数信息，如“多面体 (polytope)”算法，其主要问题是如何使多面体不退变；第二类也称一阶算法，用到 E 的一阶导数，典型例子是“最速下降法”和共轭梯度法.二者都近似线性收敛，但后者的收敛速度更快些，共轭梯度法的一个主要优点是不需要诸如学习因子等训练参数；第三类是以牛顿法为代表的二阶算法，由于需要计算复杂的Hessian矩阵，因而应受到限制，于是有学者提出用修正的Cholesky分解法来构造不确定的Hessian矩阵以简化计算。由于求解二阶导数通常比较复杂且比较费时，于是就有了一些简化算法，如正割法 (或称准牛顿法)和一步正割法(OSS)，其中，OSS法可以说是正割法与共轭梯度法的一个折中。另外，为改善算法的全局收敛性，“跳蛙”(leap-frog) 算法提供了一种可避开局部最优的基于梯度法的优化算法。 1.2 顺序处理算法在这种模式中，网络权值的修正是随着样本的逐个出现而逐步进行的，因而，各样本或多或少会有些误导作用，所以，在很大程度上可以说是随机梯度下降法的变形。顺序处理法的关键问题是，每一次权值的修正应该多大才能使E 下降的“步长”最为合适？如果“步长”不够小，E在总体上反而会上升，但若太小，收敛时间又会很长。为解决这个问题，Barnard认为有以下三种途径：训练的不同时刻采用不同的步长，并自适应调整；对不同的网络参数 (如权值)采取不同的修正步长；引入“动量项(momentum)”。实际情况是，这几种方法常常混合一起使用，而且，大多数顺序处理方法都能很方便地用于对样本集的批处理。另外一些有效的算法如采用递推最小二乘和扩展Kalman滤波的训练算法。 2 网络结构自MLP和CMAC问世以来，许多学者从各个不同的领域出发，提出了一系列的网络模型，比较典型的有，高阶网(HONN)，函数连接网( FL)，随机向量函数连接网(RVFL)，幂级数网(POWER)，径向基函数网( RBF)，模糊神经网络(FNN)，子波网(WLN)，和部分连接的多层感知器(PCMLP)等，上