第四章 神经网络.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 神经网络

4.8 ANN的高级课题 其他可选的误差函数 本文网络误差平方和E,权重调整策略是梯度下降。 问题:是否可以引入其他误差函数,以及相应的权重调整策略? 为权值增加一个惩罚项 目的:梯度下降搜寻较小的权值向量,从而减小过度拟合的风险,等价于使用权衰减策略 递归网络 本文讨论的网络主要是有向无环网络拓扑结构。 问题:其他网络拓扑结构如何?特别是包含有向环的网络结构。 递归网络的拓扑结构以及权重的学习问题。 动态修改网络结构 本文讨论的网络学习,网络结构都是固定的,即单元数目以及相互的联接情况都是事先固定的。 问题:为了提高泛化精度和训练效率,能否根据需要,动态增长或压缩网络单元和单元间连接的数量? 小 结 人工神经网络为学习实数值和向量值函数提供了一种实际的方法,对于连续值和离散值的属性都可以使用,并且对训练数据中的噪声具有很好的健壮性。 反向传播算法是最常见的网络学习算法 包含3层单元的前馈网络能够以任意精度逼近任意函数,只要每一层有足够数量的单元。即使是一个实际大小的网络也能够表示很大范围的高度非线性函数 交叉验证方法可以用来估计梯度下降搜索的合适终止点,从而最小化过度拟合的风险 Delta法则 (随机梯度下降、增量梯度下降、LMS) delta权值更新法则: ------(4.10) ----根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例) ----在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下降的一个合理近似 ----通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降 标准梯度下降和随机梯度下降之间的关键区别 ---标准梯度下降是在权值更新前对所有样例汇总误差, 而随机梯度下降的权值是通过考查每个训练样例来更新 ---在标准梯度下降中,权值更新的每一步对多个样例求 和,需要更多的计算 ---标准梯度下降,由于使用真正的梯度,标准梯度下降 对于每一次权值更新经常使用比随机梯度下降大的步长 --如果标准误差曲面有多个局部极小值,随机梯度下降 有时可能避免陷入这些局部极小值中 --实践中,标准和随机梯度下降方法都被广泛应用 Delta法则是否可以用来训练有阈值的感知器单元? ----如果非阈值输出能够被训练到完美拟合这些值,那么阈值输出也会完美拟合它们 ----即使不能完美地拟合目标值,只要线性单元的输出具有正确的符号,阈值输出就会正确拟合目标值 ----尽管这个过程会得到使线性单元输出的误差最小化的权值,但这些权值不能保证阈值输出的误差最小化 感知器小结 感知器法则和delta法则的关键差异 --前者根据阈值化的感知器输出的误差更新权值 --后者根据输入的非阈值化线性组合的误差来更新权值 这个差异带来不同的收敛特性 --前者经过有限次的迭代收敛到一个能理想分类训练数 据的假设,条件是训练样例线性可分 --后者可能经过极长的时间,渐近收敛到最小误差假 设,但无论训练样例是否线性可分都会收敛 学习权向量的第3种方法是线性规划,但其扩展性差 4.5 多层网络与反向传播算法 多层网络能够表示高度非线性的曲面 Example ?思考:如何构建多层网络 可微阈值单元 问题:使用什么类型的单元来构建多层网络? 线性单元? 满足输出是输入的非线性函数 × 感知器单元? 输出是输入的可微函数 × Sigmoid单元:类似于感知器单元,但基于一个平滑的可微阈值函数 Sigmoid 阈值单元 sigmoid函数的特点 --也称logistic函数 --挤压函数 --输出范围是0到1 --单调递增 ---导数很容易用函数本身表示 sigmoid函数的变型 --其他易计算导数的可微函数 --增加陡峭性 --双曲正切函数 反向传播算法(back-propagation) 用来学习多层网络的权值 网络的误差定义公式 采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方 输入层 隐层 输出层 反向传播算法面临的学习任务 initial weight vector by random minimum error 反向传播算法面临的学习任务 搜索一个巨大的假设空间,这个空间由网络中所有的单元的所有可能的权值定义。 搜索策略是:梯度下降法,即 其中 ---输出层误差 ---隐层误差 反向传播算法的说明 在多层网络中,误差曲面可能有多个局部极小值,梯度下降仅能保证收敛到局部极小值。 尽管有这个障碍,已经发现对于实践中很多应用,反向传播算法都产生了出色的结果。 表4-2是反向传播算法的增量梯度下降(或随机梯度下降)版本。 要取得误差E的真实梯度,需要在修改权值之前对所有训练样例的?jxji值求和。 因为反向传播算法的应用如此

文档评论(0)

138****7331 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档