神经网络_配套_Ch10_pres.pptVIP

下载本文档

2
0
约2.46千字
约 29页
2016-08-11 发布于重庆
举报
版权申诉

神经网络_配套_Ch10_pres.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

神经网络_配套_Ch10_pres

10 * Widrow-Hoff 学习算法（LMS 算法） LMS 算法 ADALINE 网络 ? w i w i 1 , w i 2 , w i R , = 2-输入的ADALINE 性能学习性能学习的优化分两步骤进行：找一个衡量网络性能的定量标准，即性能指数：F(x)。性能指数在网络性能良好时很小，反之则很大。搜索减小性能指数的参数空间(调整网络权值和偏置值)。研究性能曲面的特性，建立确保极小点（即所寻求的最优点）存在的条件。学习规则的几种类型：性能学习，联想学习，竞争学习。性能学习目的在于调整网络参数以优化网络性能。均方差性能指数训练集：输入：目标：符号：均方差：均方差性能指数分析 ADALINE网络的均方差性能指数是一个二次函数：性能指数极小点一阶必要条件：二阶必要条件：Hessian矩阵R (2R=A) 必须至少是半正定的。如果R半正定（有一些特征值为０），则性能指数要么有一个弱极小点，要么没有极小点。如果R正定（所有特征值大于０），则有一个唯一的全局极小点x*. 如果R是正定的：基本的优化算法 pk – 搜索方向 ak – 学习速度 or 优化的目标是求出使性能指数Ｆ(x)最小化的x的值。这里讨论迭代算法，设初始值为x0，然后按下式迭代：最速下降法选择下一次迭代使得性能指数函数减小：对x小的变化F(x)可近似表示为（在xk的一阶Taylor级数展开）：这里gk是在xk的梯度：要使F(xk+1) F(xk)，则Taylor展式的第二项必须为负，即：满足上式的任意向量称为一个下降方向。最速下降方向在哪里？当方向向量与梯度反向时，该内积为负，而绝对值最大(设长度不变，只改变方向)。所以最速下降方向的向量为：最速下降法（续）学习速度ak ： ? ak小，迭代的步长小，迭代次数多(例见书P145图9-1)； ? ak大，迭代的步长大，迭代次数少，但ak过大会导致算法不稳定(例见书P145图9-2)；如何确定最大可行的学习速度？ ? 任意函数：没有通用的方法； ? 二次函数：可以确定一个上界。稳定的学习速度（二次函数）稳定性由这个矩阵的特征值决定. 即(1 – αli)是[I - aA]的特征值。所以最速下降法稳定条件为：若二次函数有一个强极小点，则其特征值为正数，上式可化为：如果矩阵[I - aA]的特征值小于1，则该系统就是稳定的。设li是A的特征值， zi是A的特征向量。那么例子近似的最速下降法近似的均方误差(单个样本): 近似的梯度值: 近似的梯度计算 LMS 算法多神经元情况矩阵表示：收敛性分析为了系统稳定，这个矩阵的所有特征值必须落在单位圆内. 两边求期望得：将误差用t(k)-xkTz(k)代入得：用z(k)(xkTz(k))替代(xkTz(k))z(k)以及 zＴ(k)xk替代xkTz(k)，整理后得：由于xk独立于z(k)，从而得：即：稳定条件由于 , 　　　总是成立。因此稳定性条件为：对所有当矩阵[I – 2aR]的所有特征值落在单位圆内时，此动态系统趋于稳定。设li是R的一个特征值，则[I - 2aR]的特征值将为1 – 2αli。因此系统的稳定的条件为：或稳态响应若稳定性条件满足，那么稳态解为：或因此，每次输入一个输入向量得到的LMS的解，与考虑所有输入／输出对期望的最小均方误差的解是相同的。例子香蕉苹果第一次迭代香蕉第二次迭代苹果第三次迭代继续此迭代过程，算法将收敛于 LMS 算法与感知机学习规则 ? 感知机学习规则： ? LMS 算法： ? 二者有相同的限制：只能分类线性可分的模式。 ? LMS 算法比感知机学习规则更有效，它使均方误差最小化，能产生比感知机学习规则受噪声影响小的判定边界。课程项目设计项目设计题目：对于给定结构的Madaline网络,记为: M=(L, S={S0, S1,… ,SL}, f) , 和训练集 D ={(p1,t1),(p2,t2),…,(pQ,tQ)}设计一个通用的Madaline学习算法并用C语言编程实现该算法。 void Madaline_learning( M, D, W, b ) {M.L：网络的层数; M.S：Sl (1?l?L)是第 l 层的神经元个数，S0为网络输入维数; M.f：传输函数; D：训练集; W: 权值; b: 偏置值; } 课程项目设计（续） Madaline网络模型：网络中的每个节点是个Ａdaline，前一层输出接到相邻后一层的每个节