前馈神经网络介绍02..docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
前馈神经网络介绍02.

激活函数 通常用于多层感知器的连续可导非线性激活函数的一个例子是Sigmoid非线性函数;有两种形式: logistic函数. 如下定义 这里vj(n)是神经元j的诱导局部域。根据这种非线性,输出的范围是0≤yj≤1。对方程(4.30)取微分,我们得到 且yj(n)=(vj(n))。式(4.31)可以如下表示 因为神经元j位于输出层,所以yj(n)=oj(n)。因此可以将神经元j的局域梯度表示为 这里的oj(n)是神经元j输出端的函数信号,而dj(n)是它的期望反应。 对任意的一个隐层神经元,局域梯度表示为 2. 双曲正切函数,表示为 这里a和b是常数。它对vj(n)的导数如下 如果神经元j位于输出层,它的局域梯度是 如果神经元j位于隐层,则 学习率 我们使用的学习率参数η越小,网络中一次迭代的突触突触 一个既要加快学习率又要保持稳定的简单模型要包括动量项,如下 这里α是动量常数,通常是正数。 解这个关于Δwji(n)的方程我们得到: 我们可知δj(n)等于 因此我们将方程(4.40)重写为 在这个关系的基础上,做以下的观察: 校正值Δwji(n)代表指数加权的时间序列的和。欲使时间序列收敛,所以动量常数必须限制在这个范围内: 0≤︱α︱<1。 当α等于0时,反向传播算法没有动量。虽然在实际中动量常数α不可能是负的,但它还是可正可负。 当偏导数 在连续迭代中有相同的代数符号,指数加权和Δwji(n)数量增加,所以,权值wji(n) 被大幅度调整。 当偏导数 在连续迭代中有相反的代数符号,指数加权和Δwji(n)减少,所以,权值wji(n) 调整不大。 动量项对于使学习过程不停止在误差曲面上一个浅层的局限最小化也有益处。 在导出反向传播算法时假设学习率参数η是一个常数。然而,事实上它应该被定义为ηji;也就是说,学习率参数应该是基于连接权值的。在网络的不同地方使用不同的学习率参数。 在反向传播算法的中假设了所有的突触 或者在适应过程中我们限制网络中某些权值保持固定。对于后者,误差信号是以通常的方式通过网络反向传播的; 固定的突触突触ji等于0来做到。 训练的串行和集中方式 对于一个给定的训练集,反向传播学习可能会以下面两种基本方式中的一种进行: 串行方式。正是目前反向传播算法公式所引用的方式。 2.集中方式。权值更新要在所有样本出现后才进行。 代价函数定义为: 误差ej(n)等于dj(n)和yj(n)的差,它们分别表示期望响应向量d(n)的第j个分量和网络输出的相应的值。 对于学习率参数η,应用于从i连接到j的wji的校正值由delta法则定义: 要计算偏导数 根据式(4.43),在集中方式,权值的校正值Δwji(n)是在 整个训练集提交训练以后才决定。 从在线运行的观点来看,训练的串行方式比集中方式要好,1.需有更少的局部存储。 2.具有随机性。这使得达到局部最小可能性降低。 同样地,串行方式的随机性质使得要得到算法收敛的理论条件变得困难了。 集中方式的使用为梯度向量提供了一个精确的估计;收敛到局部最小只要简单的条件就可以保证。 集中方式的组合比连续模式更容易保证并行。 总的来说,串行方式能够如此流行(特别对解决模式分类问题)有两个重要的原因: ·算法的实施很简单。 ·它为大型而困难的问题提供了有效的解决方法。 停止准则 通常,反向传播算法不能证明收敛,并且没有定义得很好的准则来停止它的运行。 我们可以将反向传播学习的一个合理的收敛准则公式化: 1.当梯度向量的欧几里得模达到一个充分小的梯度阈值时,认为反向传播算法已经收敛。 收敛准则的缺点是,学习时间可能会很长。这也需要梯度向量g(w)的计算。 2. 当整个样本的均方误差的变化的绝对速率足够小时,认为反向传播算法已经收敛。 3.一个有用的且有理论支持的收敛准则。在每一个学习迭代之后,都要检查网络的泛化性能。当泛化性能是适当的,或泛化性能有明显的最大值时,学习过程被终止。 4. 4反向传播算法的总结 权值的串行更新的运行方式中,算法通过训练样本{(x(n),d(n))}Nn=1进行如下循环: 初始化. 假设没有先验知识可用,选择一个均值等于0的均匀分布,它的标准差的平方使神经元的诱导局部域的标准导数位于S型突触前向计算. 设一个训练样本是(x(n),d(n)),有一个输入向量x(n)指向输入层的感知节点和一个期望响应向量 = 如果神经元j是在第一隐层(=1),置 yj(0)(n)=xj(n) 如果神经元j在输出层,令 yj(0)(n)=oj(n) 计算误差信号

文档评论(0)

kakaxi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档