人工神经网络专业知识讲座.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2003.12.18 机器学习-人工神经网络 作者: Mitchell 译者: 曾华军等 讲者: 陶晓鹏 感知器学习小结 感知器法则和delta法则关键差异 前者依据阈值化感知器输出误差更新权值 后者依据输入非阈值化线性组合误差来更新权值 这个差异带来不一样收敛特征 前者经过有限次迭代收敛到一个能理想分类训练数据假设, 条件是训练样例线性可分 后者可能经过极长时间, 渐近收敛到最小误差假设, 但不管训练样例是否线性可分都会收敛 感知器学习小结(2) 学习权向量第3种方法是线性计划 线性计划是解线性不等式方程组一个通用有效方法 这种方法仅当训练样例线性可分时有解 Duda和Hart给出了一个更巧妙适合非线性可分情况方法 更大问题是, 无法扩展到训练多层网络, 而delta法则能够很轻易扩展到多层网络 多层网络和反向传输算法 多层网络能够表示种类繁多非线性曲面 图4-5描述了一个经典多层网络和它决议曲面 可微阈值单元 使用什么类型单元来构建多层网络? 多个线性单元连接仍产生线性函数, 而我们期望构建表征非线性函数网络 感知器单元能够构建非线性函数, 但它不连续阈值使它不可微, 不适合梯度下降算法 我们需要单元满足条件 输出是输入非线性函数 输出是输入可微函数 Sigmoid单元, 类似于感知器单元, 但基于一个平滑可微阈值函数 可微阈值单元(2) 图4-6 sigmoid单元先计算它输入线性组合, 然后应用到一个阈值上, 阈值输出是输入连续函数 其中 可微阈值单元(3) sigmoid函数 也称logistic函数 挤压函数 输出范围是0到1 单调递增 导数很轻易用函数本身表示 sigmoid函数变型 其她易计算导数可微函数 增加陡峭性 双曲正切函数 反向传输算法 用来学习多层网络权值 采取梯度下降方法试图最小化网络输出值和目标值之间误差平方 网络误差定义公式, 对全部网络输出误差求和 反向传输算法(2) 反向传输算法面临学习任务 搜索一个巨大假设空间, 这个空间由网络中全部单元全部可能权值定义, 得到类似图4-4误差曲面 在多层网络中, 误差曲面可能有多个局部极小值, 梯度下降仅能确保收敛到局部极小值 尽管有这个障碍, 已经发觉对于实践中很多应用, 反向传输算法都产生了出色结果 反向传输算法(3) 表4-2包含两层sigmoid单元前馈网络反向传输算法 BackPropagation(training_examples, ?, nin, nout, nhidden) training_examples是序偶 , 集合, 是网络输入值向量, 是目标输出值。?是学习速率, nin是网络输入数量, nhidden是隐藏层单元数, nout是输出单元数, 从单元i到单元j输入表示为xji, 单元i到单元j权值表示为wji。 创建含有nin个输入, nhidden个隐藏, nout个输出单元网络 初始化全部网络权值为小随机值 在碰到终止条件前 对于训练样例training_examples中每个 , : 把输入沿网络前向传输 把实例 输入网络, 并计算网络中每个单元u输出ou 使误差沿网络反向传输 对于网络每个输出单元k, 计算它误差项?k?ok(1-ok)(tk-ok) 对于网络每个隐藏单元h, 计算它误差项?h?oh(1-oh) 更新每个网络权值wji?wji+?wji, 其中?wji=??jxji 反向传输算法(4) 表4-2给出反向传输算法适适用于包含两层sigmoid单元分层前馈网络, 而且每一层单元与前一层全部单元相连。 表4-2是反向传输算法增量梯度下降(或随机梯度下降)版本 使用符号做了以下扩展 网络中每个节点被给予一个序号, 这里节点要么是网络输入, 要么是网络中某个单元输出 xji表示节点i到单元j输入, wji表示对应权值 ?n表示与单元n相关联误差项。 表4-2算法解释 从建立一个含有期望数量隐藏单元和输出单元网络并初始化全部网络权值为小随机数开始 给定一个固定网络结构, 算法主循环就对训练样例进行反复迭代 对于每一个训练样例, 它应用现在网络到这个样例, 计算出对这个样例网络输出误差, 然后更新网络中全部权值 对这么梯度下降步骤进行迭代, 直到网络性能达成可接收精度为止 反向传输算法梯度下降法则 表4-2梯度下降权更新法则与delta训练法则相同 类似delta法则, 依据以下三者来更新每一个权 学习速率? 该权值包含输入值xji 该单元输出误差 不一样于delta法则地方 delta法则中误差项被替换成一个更复杂误差项?j 反向传输算法误差项 输出单元k误差项 ?k与delta法则中(tk-ok)相同, 但乘上了sigmoid挤压函数导数ok(1-ok)。 隐藏单元h误差项 因为训练样

文档评论(0)

173****6081 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档