第三讲人工神经网络导论.ppt

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。 研究ANN目的: (1)探索和模拟人的感觉、思维和行为的规律,设计具有人类智能的计算机系统。 (2)探讨人脑的智能活动,用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * * * * * * * * What is machine learning? * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。 研究ANN目的: (1)探索和模拟人的感觉、思维和行为的规律,设计具有人类智能的计算机系统。 (2)探讨人脑的智能活动,用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * 神经网络发展历史: 1943年,心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。发表于数学生物物理学会刊《Bulletin of Methematical Biophysics》 1949年,心理学家D. O. Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。 以Marvin Minsky,Frank Rosenblatt,Bernard Widrow等为代表人物,代表作是单级感知器(Perceptron)。 可用电子线路模拟。 人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项研究,希望尽快占领制高点 M. L. Minsky和S. Papert,《Perceptron》,MIT Press,1969年 异或”运算不可表示 二十世纪70年代和80年代早期的研究结果 认识规律:认识——实践——再认识 1982年,J. Hopfield提出循环网络 * * What is machine learning? * * * * What is machine learning? 感知器网络可以表示所有的布尔函数(下一页) * * * * * * delta法则克服感应器法则的不足,在线性不可分的训练样本上,收敛到目标概念的最佳近似 delta法则的关键思想是,使用梯度下降来搜索可能的权向量的假设空间,以找到最佳拟合训练样例的权向量 delta法则为反向传播算法提供了基础,而反向传播算法能够学习多个单元的互连网络 对于包含多种不同类型的连续参数化假设的假设空间,梯度下降是必须遍历这样的空间的所有算法的基础 * * * * * * * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。 研究ANN目的: (1)探索和模拟人的感觉、思维和行为的规律,设计具有人类智能的计算机系统。 (2)探讨人脑的智能活动,用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * * * * * 反向传播算法适合问题的特征 实例是用很多“属性-值”对表示的 训练数据可能包含错误 可容忍长时间的训练 可能需要快速求出目标函数值 人类能否理解学到的目标函数是不重要的(医疗诊断就不行) 终止条件 在典型的应用中,权值的更新迭代会被重复上千次 有很多终止条件可以用来停止这个过程 迭代的次数到了一个固定值时停止 当在训练样例上的误差降到某个阈值以下 在验证样例集合上的误差符合某个标准 终止条件很重要,太少的迭代无法有效地降低误差,太多的迭代会导致对训练数据的过度拟合 反向传播算法的变体:增加冲量项 修改权值更新法则,使第n次迭代时的权值的更新部分地依赖于发生在第n-1次迭代时的更新,即: ?wji(n)=??jxji+??wji(n-1) 右侧第一项就是传统的的权值更新法则,第二项被称为冲量项 冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域 收敛性和局部极小值(1) 对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入这些局部极小值中的任何一个 对于多层网络,反向传播算法仅能保证收敛到误差E的某个局部极小值,不一定收敛到全局最小误差 收敛性和局部极小值(2) 用来缓解局部极小值问题的启发式规则 为梯度更新法则加一个冲量,可以带动梯度下降过程,冲过狭窄的局部极小值(原则上,也可能冲过狭窄的全局最小值) 使用随机的梯度下降而不是真正的梯度下降。 使用同样的数据训练多个网络,但用不同的随机权值初始化每个网络。如果不同的训练产生不同的局部极小值,那么对验证集合性能最好的那个网络将被选中,或者保留所有的网络,输出是所有网络输出的平均值 前馈网络的表征能力 布尔函数:任何布尔函数可以被具有两层单元的网络准确表示。 连续函数:每个有界的连续函数可以由一个两层的网络以任意小的误差逼近。适用条件:隐藏层使用sigmoid单元、输出层使用(非阈值)线性单元的网

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档