周志华-机器学习-西瓜书-全书16章-课件-Chap05神经网络.pptxVIP

下载本文档

370
0
约4.26千字
约 29页
2019-09-14 发布于福建
举报
版权申诉

周志华-机器学习-西瓜书-全书16章-课件-Chap05神经网络.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习导论五、神经网络神经网络是一个具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。什么是神经网络（学习）？ neural networks are massively parallel interconnected networks of simple (usually adaptive) elements and their hierarchical organizations which are intended to interact with the objects of the real world in the same way as biological nervous systems do [T. Kohonen, NN88]M-P 神经元模型[McCulloch and Pitts, 1943]神经网络是一个很大的学科，本课程仅讨论它与机器学习的交集神经网络学得的知识蕴含在连接权与阈值中激活函数理想激活函数是阶跃函数 , 0表示抑制神经元而1表示激活神经元阶跃函数具有不连续、不光滑等不好的性质 , 常用的是 Sigmoid 函数??多层前馈网络结构多层网络：包含隐层的网络前馈网络：神经元之间不存在同层连接也不存在跨层连接，即网络中无环或者回路。隐层和输出层神经元亦称“功能单元”(functional unit)，无隐藏层的又称“感知机(Perceptron)”多层前馈网络有强大的表示能力只需一个包含足够多神经元的隐层 , 多层前馈神经网络就能以[Hornik et al., 1989]任意精度逼近任意复杂度的连续函数但是，如何设置隐层神经元数是未决问题. 实际常用“试错法”神经网络发展回顾 1940年代 -萌芽期： M-P模型 (1943), Hebb 学习规则 (1945) 1958左右 -1969左右 ~繁荣期：感知机 (1958), Adaline (1960), … 1969年： Minsky Papert “Perceptrons” 冰河期 1985左右 -1995左右 ~繁荣期： Hopfield (1983), BP (1986), … 1995年左右：SVM 及统计学习兴起交替模式 : 热十（年）冷十五（年）沉寂期2010左右 -至今 ~繁荣期：深度学习启示科学的发展总是“螺旋式上升”三十年河东、三十年河西坚持才能有结果！追热门、赶潮流 —— 三思而后行误差逆传播算法 (BP)最成功、最常用的神经网络算法，可被用于多种任务（不仅限于分类）P. Werbos在博士学位论文中正式提出:P. Werbos. Beyond regression: New tools for prediction and analysis inthe behavioral science. Ph.D dissertation, Harvard University, 1974给定训练集输入： d 维特征向量输出： l 个输出值隐层：假定使用 q 个隐层神经元假定功能单元均使用Sigmoid 函数BP 算法推导对于训练例则网络在 , 假定网络的实际输出为上的均方误差为：需通过学习确定的参数数目：BP 是一个迭代学习算法 , 在迭代的每一轮中采用如下误差修正：BP 算法推导 (续 ) BP 算法基于梯度下降策略，以目标的负梯度方向对参数进行调整以为例, 给定学习率先影响到 , 有：,对误差注意到, 然后才影响到, 有 :再影响到“链式法则”BP 算法推导 (续 ), 有对再注意到于是，BP 算法推导 (续 ) 类似地，有：其中：不能太大、不能太小BP 算法预处理：属性值一般伸缩到[-1,1], Y伸缩到[0,1]标准 BP 算法 vs. 累积 BP 算法标准 BP 算法?每次针对单个训练样例更新权值与阈值?参数更新频繁 , 不同样例可能抵消 , 需要多次迭代累积 BP 算法?其优化目标是最小化整个训练集上的累计误差?读取整个训练集一遍才对参数进行更新 , 参数更新频率较低在很多任务中 , 累计误差下降到一定程度后 , 进一步下降会非常缓慢, 这时标准 BP算法往往会获得较好的解, 尤其当训练集非常大时效果更明显.BP算法常常导致过拟合缓解过拟合主要策略：? 早停 (early stopping)?若训练误差连续 a 轮的变化小于 b, 则停止训练?使用验证集：若训练误差降低、验证误差升高 , 则停止训练? 正则化 (regularization)?在误差目标函数中增加一项描述网络复杂度例如偏好比较小的连接权和阈值，使网络输出更“光滑”全局最小 vs. 局部极小神经网络的训练过程可看作一个参数寻优