Lecture 8_Neural Networks 机器学习概论 教学课件.ppt

Lecture 8_Neural Networks 机器学习概论 教学课件.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Lecture 8_Neural Networks 机器学习概论 教学课件

Lecture 8: -Neural Networks 邓志鸿 北京大学信息科学技术学院 回顾-朴素贝叶斯 基本思想 采用属性和类别的联合概率(先验知识)去估计未知样本的类别。 两个理论 贝叶斯公式和条件独立假定 回顾-朴素贝叶斯算法 回顾-分类实例 回顾-贝叶斯网络 条件概率表 (conditional probability table, CPT) 每个结点有一个条件概率表。 CPT给出在每个可能父结点取值组合的条件下,该结点每个值的出现概率。 对无父结点的根结点, CPT给出先验概率 (prior probabilities)。 回顾-贝叶斯网络推理 联合概率 计算如下概率 P(s3, l1, f1 , b3 , t2) = ? 神经网络-简介 类似生物神经系统,目前已知鲁棒性最好的学习系统之一。 1943年,心理学家McCulloch与数学家Pitts对神经元进行了形式化研究,提出了神经元的数学模型MP模型。 1957年,Rosenblatt首次引进感知器。 1969年,Minsky和Paper发表《认知论》,指出单层神经网络无法解决“异或”问题,神经网络进入低谷 1982,Hopfield模型的提出,以及逆向传播算法又推动了神经网络的发展 神经网络分类 拓扑结构 单层神经网络-仅有输出层 两层神经网络-包含一个隐层 N层神经网络-包含N-1个隐层 连接方式 前馈式网络:连接是单向的 反馈式网络:最后一层单元可作为输入 全连接神经网络 学习 有指导学习 用于分类: 感知器(上世纪50年代) 反向传播网络 (上世纪80年代) 无指导学习 用于聚类 Perceptrons (感知器) Perceptrons - Learning 概念空间 如何搜索? specific-to-general Find-S Simple-to-complex ID3 穷举法 ? Perceptrons – Learning Rule Learning rule perceptron rule wi ? wi + ?wi ?wi = ?(t-o) xi 训练样本 线性可分,将找到所求的权重向量 线性不可分的,将不收敛。 Delta rule 如果训练样本不是线性可分的, Delta rule能收敛到与目标概念(函数)最为近似的概念 Delta rule 采用梯度下降 (gradient descent)方法指导在高维连续空间中搜索所求权重向量。 梯度下降也是重要学习算法逆向传播的基础。 考虑一个无阈值的感知器,其输出如下: 训练误差E 感知器对训练样本拟和的程度 常用度量 Delta rule Visualizing The Hypothesis Space 假定两个输入的感知器 Delta rule 梯度下降搜索 (Gradient descent search) Starting with an arbitrary initial weight vector, then repeatedly modifying it in small steps. At each step: The weight vector is altered in the direction that produces the steepest descent along the error surface (as the above figure). This process continues until global minimum error is reached. Delta rule The direction of steepest descent along the error surface 解释 在权重空间中,上述方向代表了E的最快增长方向 Gradient descent rule How to calculate Delta rule Gradient-Descent Algorithm GD(training example, ? ) Initialize each wi to some small random value Until the termination condition is met, Do Initialize each ?wi to zero. For each x, t in training_examples, Do Input the instance x to the unit and compute the output o For each linear unit weight wi, Do For each linear unit weight wi, Do

您可能关注的文档

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档