前馈神经网络分解.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 深度学习 第6章 深度前馈网络 2 概述 以学习异或为例 基于梯度的学习 成本函数 输出单元 隐藏单元 线性修正单元 Sigmoid单元和双曲正切单元 设计结构 反向传播算法 3 深度前馈网络 深度前馈网络也被称之为前馈神经网或者多层感知机。 一个前馈网络定义了一个映射函数 y=f(x;θ),通过学习参数θ,得到最接近样本数据的函数f*估计。 “前馈”并不意味着网络中的信号不能反传,而是指网络拓扑中不能存在回路或环(反馈)。 4 6.1:以学习异或为例 目标:让 X = { [0, 0], [0 , 1] ,[1, 0], [1, 1] }在网络中获得正确的结果。 前期准备: 认为是回归问题 采用均方误差作为损失函数 假设选择线性模型 5 6.1:以学习异或为例 通过求解正规方程得到 w=0,b=0.5 线性模型不能实现异或。 当x1为0时,模型的输出要随着x2的增长而增长,当x1 为1时,模型输出要随着x2的增长而减小。线性模型不能通过x1来改变x2的系数!该问题是线性不可分的。 6 6.1:以学习异或为例 解决方法:引入含有一个隐层的前馈网络。 引入了激活函数: 使用线性修正单元作为激活函数: g(z) = max{0, z} 7 6.2:基于梯度的学习 对于机器学习模型,为了应用梯度下降我们必须选择一个cost函数。 深度神经网络设计的一个重要方面是cost函数的选择。 大多情况下,我们使用训练数据和模型预测之间的cross-entropy(交叉熵)作为cost函数。? 8 :使用最大似然学习条件分布 大多数现代神经网络是用最大似然训练的,其cost函数为: 由于概率模型p不同,故cost函数是变化的。 很多的输出单元包括一个exp函数,这个exp函数能够在参数是很负值的时候饱和,而log-likelihood的log函数会抵消输出单元的exp。? 9 :学习条件统计 与其训练一个全概率的分布p(y|x;Θ),我们更想仅仅训练一个在输入为x时,y的条件统计。 比如,我们有一个预测器f(x;Θ)想要预测y的平均值。? 我们使用一个足够强大的神经网络,我们可以认为这个神经网络能够表示任何f,这些函数f只受到像连续性有界性这样的特征限制。 根据上述观点,可以把cost函数看作是一个functional(泛函)而不是function。 functional:把function映射为实数的映射。 10 :学习条件统计 使用变分法得到两个结果: 结果一: 如果我们训练来自真实数据产生的样本分布,最小化均方误差函数将会给出一个函数,该函数给出了在输入为x时y的均值。 11 :学习条件统计 使用变分法得到两个结果: 结果二: 该函数产生出在输入为x时y的中值。 均方误差和平均绝对误差使用梯度学习时会产生很差的结果。 12 6.2.2:输出单元 cost函数的选择和输出单元联系紧密,大多数时候,我们仅仅在数据分布和模型分布之间使用cross-entropy。 如何选择输出单元决定着交叉熵函数的形式。 任意类型的神经网络单元作为输出也能作为隐藏单元。 这部分,我们认为前馈网提供了由h=f(x;Θ)定义的特征。输出层的任务就是完成神经网络要执行的一种转变。 13 :线性输出单元 使用线性单元的高斯分布: 线性单元:无阈值限制的感知器。 给定特征h,一层线性输出层单元输出一个向量: 线性单元可以输出有条件的高斯分布的均值。 可以让高斯分布的协方差成为一个输入的函数,但是要保证让协方差矩阵正定,线性单元难以做到。 由于线性单元的不饱和性质,使用梯度下降学习有一定的困难。 14 :使用sigmoid单元的伯努利分布 很多任务要求预测y的一个二元取值,比如二分类问题。 对于二项分布,我们只需要预测 时的情况。 假设我们用线性单元来模拟二项分布: 缺陷:当 在[0,1]区间外时,输出的梯度变为0。 15 :使用sigmoid单元的伯努利分布 线性单元不能很好的满足我们的需求。 可以用sigmoid输出单元结合最大似然来模拟一个二项分布。 Sigmoid单元的输出: 把sigmoid单元的输出看成两部分:加权求和(线性层)和使用激活函数输出。 16 :sigmoid单元模拟伯努利分布 过程: 在y和z中,使用未归一化的log概率: 取对数: 归一化: 得到结果: 17 :sigmoid单元模拟伯努利分布 选取最大似然函数法学习获得cost function。 这样成本函数中log可以化简sigmoid函数中的exp,且只有函数得到正确答案时才会饱和。 使用均方误差作为损失函数,不管得到的是不是正确答案cost函数都可能饱和。 损失函数: 18

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档