- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第12章 反向传播 最速下降法是一个是简单但通常是最慢的最小化方法。共轭梯度算法和牛顿法一般有更快的收敛速度。 本章中将解释如何用这些快速的方法去加速反射传播的收敛速度。将介绍两个成功的应用于多层感知机训练的算法: 1、共轭梯度算法; 2、Levenberg-Marquardt算法(牛顿法的变形) 平常所说的反向传播算法实际上是最速下降算法。为方便讨论,称基本的反射传播算法为最速下降反传算法(SDBP, Steepest Descent Baqckprogation) 12.2.1 BP算法的缺点 第10章中的LMS算法在学习速度不大时能保证收敛到具有最小均方误差的解。这是由于对单层线性网络来说均方误差是一个二次函数。二次函数只有一个驻点。另外,二次函数在给定方向的曲率是不变的,并且函数的轮廓线是椭圆。 SDBP是LMS算法的推广。单层线性网络的均方误差只有一个极小点,并具有常数曲率。但是多层网络的性能曲面可能有多个局部极小点,而且在参数空间的不同区域,曲率也是变化的。 12.2.1 BP算法的缺点 如图,是一个两层网络性能函数图,性能函数不是一个二次函数,曲率在参数空间中的变化很大。难以为最速下降算法选择一个合适的学习速度。在区域曲面非常平坦需要一个大的学习速度,在曲率很高的区域,这需要一个小的学习速度 12.2.1 BP算法的缺点 曲面具有扭曲的形状:在一些区域很弯, 在另一些区域很平坦,用标准的是速下降算法处理这个曲面时必定会碰到困难,如梯度迫近于0,即使是没有靠近局部极小点,最速下降算法也会停滞。 12.2.1 BP算法的缺点 12.2.1 批处理 批处理 当整个训练集都出现后网络参数才会更新。每个训练样本的梯度被平均加在一起,以获得更精确的梯度估计。如果训练集是完备的,即包括了所有可能的输入/输出对,则梯度的估计是精确的。 12.2.1 批处理 12.2.1 批处理 如图,轨迹a的学习速度提高时,算法一开始收敛得很快,但是当轨迹到达包含极小点的窄谷时,算法开始发散。这意味着改变学习速度是非常有效的。 平坦曲面时增加学习速度,在斜率增加时减少学习速度。 12.2.2 BP的改进动量方法 动量法(MOBP) 实现函数:traingdm 12.2.2 BP的改进可变学习速率 变学习速率 (VLBP,variable learnling rate backprogaton) 实现函数:traingda 1、如果均方误差(在整个训练集上0权值在更新后增加了,且超过了某个设置的百分数(典型为1%~5%),则权值更新被取消,学习速度被乘以一个介于0和1之间的因子,并且动量系数(如果有的话)被设置为0 2、如果平方误差在权值更新后减少,则权值更新被接受,而且学习速度将被乘以一个大于0的因子。如果动量系数为0,则恢复到以前的值。 3、如果平方误差的增长小于某个百分数,则权值更新被接受,但学习速度保持不变。如果动量系数已被设置为0,则恢复到以前的值。 12.2.2 BP的改进可变学习速率 变学习速率 (VLBP,variable learnling rate backprogaton) 实现函数:traingda 变学习速率的动量BP实现: traingdx 12.2.3 数值优化技术 1、共轭梯度法(某些教材也称:变梯度算法) (CGBP, conjugate gradient backpropagaton) 因共轭梯度法涉及复杂的数学理论知识,在此不详细说明 重点掌握算法实现的使用方法,有四种不同搜索方向的共轭梯度实现: traincgf:基于Fletcher-Reeves修正算法的共轭梯度法 traincgp:基于Polak-Ribiere修正算法的共轭梯度法 traincgb:基于Powel-Beale复位算法的共轭梯度法 trainscg:基于SCG(scaled conjugate gradient)算法。 12.2.3 数值优化技术 1、共轭梯度法(某些教材也称:变梯度算法) (CGBP, conjugate gradient backpropagaton) 12.2.3 数值优化技术 2、LM算法(Levenberg-Marquardt) 其基本算法包括牛顿法、梯度的雅可比矩阵计算、高斯-牛顿法及Marquardt敏感度计算。此处只需要掌握其实现函数的调用即可: trainlm 特点: 1、算法收敛的迭代次数最少,当然每步迭代的计算量最大。内存需求大。 2、当参数数目非常大的时候,LM算法不太实用,,非常大是指相对硬件的存储器而言。目前的硬件技术已让这一不足不太显示出来。 第11、12章 作业 1、绘制Page201的三层感知机网络图(对所写的公式中的符号要
您可能关注的文档
- Tools for Assessment of Bidding into Electricity Auctions教程.pdf
- 并行口.ppt
- 博客网络中具有突发性的话题传播模型.pdf
- 薄板层析.doc
- 学习课件第07章市场的有效性.ppt
- 考研语法体系.ppt
- 材料科学与工程学院入党常用文写法及格式要求.doc
- 学习课件第二讲:文学创作论艺术思维.ppt
- 财经金融实务1104---香港离岸人民币市场的机会.doc
- 李曼卿无领导讲义.pdf
- 场地脚手架工程施工方案(3篇).docx
- 2024年浙江省丽水市松阳县玉岩镇招聘社区工作者真题及参考答案详解一套.docx
- 2024年河南省郑州市惠济区古荥镇招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市淳安县文昌镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省台州市三门县小雄镇招聘社区工作者真题带答案详解.docx
- 2024年浙江省宁波市余姚市河姆渡镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省丽水市景宁畲族自治县雁溪乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市临安市板桥乡招聘社区工作者真题及答案详解一套.docx
- 2024年湖北省宜昌市点军区土城乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省台州市路桥区桐屿街道招聘社区工作者真题附答案详解.docx
文档评论(0)