第三讲人工神经网络导论.ppt

下载文档 降价啦

25
0
约1.43万字
约 84页
2017-03-30 发布于湖北
举报
版权申诉
保障服务

第三讲人工神经网络导论.ppt

1、本文档共84页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * * * * * * * * * * * * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。研究ANN目的：（1）探索和模拟人的感觉、思维和行为的规律，设计具有人类智能的计算机系统。（2）探讨人脑的智能活动，用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * * * * * * * * What is machine learning? * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。研究ANN目的：（1）探索和模拟人的感觉、思维和行为的规律，设计具有人类智能的计算机系统。（2）探讨人脑的智能活动，用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * 神经网络发展历史： 1943年，心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型，简称为M-P模型。发表于数学生物物理学会刊《Bulletin of Methematical Biophysics》 1949年，心理学家D. O. Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。以Marvin Minsky，Frank Rosenblatt，Bernard Widrow等为代表人物，代表作是单级感知器（Perceptron）。可用电子线路模拟。人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项研究，希望尽快占领制高点 M. L. Minsky和S. Papert，《Perceptron》，MIT Press，1969年异或”运算不可表示二十世纪70年代和80年代早期的研究结果认识规律：认识——实践——再认识 1982年，J. Hopfield提出循环网络 * * What is machine learning? * * * * What is machine learning? 感知器网络可以表示所有的布尔函数(下一页） * * * * * * delta法则克服感应器法则的不足，在线性不可分的训练样本上，收敛到目标概念的最佳近似 delta法则的关键思想是，使用梯度下降来搜索可能的权向量的假设空间，以找到最佳拟合训练样例的权向量 delta法则为反向传播算法提供了基础，而反向传播算法能够学习多个单元的互连网络对于包含多种不同类型的连续参数化假设的假设空间，梯度下降是必须遍历这样的空间的所有算法的基础 * * * * * * * 利用机器模仿人类的智能是长期以来人们认识自然、改造自然和认识自身的理想。研究ANN目的：（1）探索和模拟人的感觉、思维和行为的规律，设计具有人类智能的计算机系统。（2）探讨人脑的智能活动，用物化了的智能来考察和研究人脑智能的物质过程及其规律。 * * * * * 反向传播算法适合问题的特征实例是用很多“属性-值”对表示的训练数据可能包含错误可容忍长时间的训练可能需要快速求出目标函数值人类能否理解学到的目标函数是不重要的(医疗诊断就不行）终止条件在典型的应用中，权值的更新迭代会被重复上千次有很多终止条件可以用来停止这个过程迭代的次数到了一个固定值时停止当在训练样例上的误差降到某个阈值以下在验证样例集合上的误差符合某个标准终止条件很重要，太少的迭代无法有效地降低误差，太多的迭代会导致对训练数据的过度拟合反向传播算法的变体:增加冲量项修改权值更新法则，使第n次迭代时的权值的更新部分地依赖于发生在第n-1次迭代时的更新，即： ?wji(n)=??jxji+??wji(n-1) 右侧第一项就是传统的的权值更新法则，第二项被称为冲量项冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域收敛性和局部极小值(1) 对于多层网络，误差曲面可能含有多个不同的局部极小值，梯度下降可能陷入这些局部极小值中的任何一个对于多层网络，反向传播算法仅能保证收敛到误差E的某个局部极小值，不一定收敛到全局最小误差收敛性和局部极小值(2) 用来缓解局部极小值问题的启发式规则为梯度更新法则加一个冲量，可以带动梯度下降过程，冲过狭窄的局部极小值（原则上，也可能冲过狭窄的全局最小值）使用随机的梯度下降而不是真正的梯度下降。使用同样的数据训练多个网络，但用不同的随机权值初始化每个网络。如果不同的训练产生不同的局部极小值，那么对验证集合性能最好的那个网络将被选中，或者保留所有的网络，输出是所有网络输出的平均值前馈网络的表征能力布尔函数：任何布尔函数可以被具有两层单元的网络准确表示。连续函数：每个有界的连续函数可以由一个两层的网络以任意小的误差逼近。适用条件：隐藏层使用sigmoid单元、输出层使用（非阈值）线性单元的网