第6章 多层网络 - 中山大学.pptVIP

  • 3
  • 0
  • 约1.92千字
  • 约 31页
  • 2017-06-14 发布于河南
  • 举报
第6章 多层网络 - 中山大学

第六章 多层神经网络;6.1 引 言; 神经元模型  a. 突触权值    b .加法器—净激活    c. 激活函数 ;6.2 前馈运算和分类;激活函数:    隐单元对它的各个输入进行加权求和运算而形成标量的“净激活”(net activation,或简称net)。也就是说,净激活是输入信号与隐含层权值的内积。     下面介绍几种常用的激活函数:;netk;6.2.1 一般的前馈运算;6.3 反向传播算法;神经元j的输出;误差传播阶段 (1)计算训练误差: (2)按与LMS算法类似的方式对突触权值w应用一个修正值  隐含层到输出层学习规则:  输入层到隐含层学习规则: ;更新学习模式;6.3.3 BP网络——学习曲线;6.4 误差曲面; 较大型的网络:    高维空间里局部极小值问题有所不同:在学习中,高维空间可以给系统提供更多的方式(维数、或自由度)以“避开”障碍或局部极小值。权值数越过剩,网络越不可能陷入局部极小值。但存在过拟和问题。;6.5 反向传播作为特征映射;6.6 反向传播、贝叶斯理论及概率;投影寻踪回归: 广义叠加模型: 多元自适应回归样条(MARS): ;6.8 改进反向传播的一些实用技术;冲量项      实验表明:增加隐含层的层数和隐含层神经元个数不一定总能够提高网络精度和表达能力。      BP网一般都选用三层网络。;权值初始化 a.初始权值的选择对于局部极小点的防止和网络收敛速度的提高均有一定程度的影响,如果初始权值范围选择不当,学习过程一开始就可能进入“假饱和”现象,甚至进入局部极小点,网络根本不收敛。 b.在前馈多层神经网络的BP算法中,初始权、阈值一般是在一个固定范围内按均匀分布随机产生的。一般文献认为初始权值范围为-1~+1之间,初始权、阈值的选择因具体的网络结构模式和训练样本不同而有所差别,一般应视实际情况而定。 c.本书中考虑有d个输入单元,假设用相同的分布初始化权值,那么输入权值的范围为: d.隐含层输出权值:;学习率     学习率参数  越小,从一次迭代到下一次迭代的网络突触权值的变化量就越小,轨迹在权值空间就越光滑。然而,这种改进是以减慢学习速度为代价的。另一方面,如果我们让 的值太大以加速学习速度的话,结果有可能使网络的突触权值的变化量不稳定。;冲量项    一个既要加快学习速度又要保持稳定的简单方法是修改delta法则,使它包括冲量项(惯量项):     a是冲量常数,通常是正数。;权值衰减 网络的权值大致分两类:对网络具有很大影响的权值和对网络影响很少或者根本没有影响的权值。后者常常造成网络推广性差。复杂性正则化的使用鼓励多余权值取得接近0,提高泛化能力。      ;误差准则函数 原来的平方误差准则是最常见的训练准则,然而,其他的训练准则有时候也有一些好处。下面介绍两个有用的准则函数: 互熵(cross entropy):(可用来度量概率分布间的“距离”) 基于闵可夫斯基误差: 可通过选择R值来调节分类器的局部性:R值越小,分类器的局部性越强。;牛顿法:   在梯度下降中使用牛顿法,可利用下式迭代计算w的值:                        (其中H为赫森矩阵) Quickprop算法:    Quickprop算法中权值假设为独立的。可以证明,这种方法可导出如下的权值更新规则:                 其中的导数是由m和m-1次迭代估计得出;共轭梯度法    共轭条件: ,其中H为赫森矩阵 在第m步的下降方向是梯度方向加上一个沿着前面的下降方向的元素: 各项间的相互比例由 控制。通常它可以用如下两个公式中的一个来计算: Fletcher-Reeves: Polak-Ribiere:;径向基函数网络 径向基函数(radial basis function,RBF)网络的设计可以看作是一个高维空间中的曲线拟和(逼近)问题。 这里考虑插值函数(内核)的通用形式 ,该函数的变量是从中心 到输入变量 的欧氏距离,称为RBF。函数 可以有多种形式,例如: ;卷积网络;递归网络;级数相关技术;6.11 剪枝技术

文档评论(0)

1亿VIP精品文档

相关文档