前馈神经网络分解.ppt

下载文档 降价啦

16
0
约6.31千字
约 53页
2017-04-10 发布于湖北
举报
版权申诉
保障服务

前馈神经网络分解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1 深度学习第6章深度前馈网络 2 概述以学习异或为例基于梯度的学习成本函数输出单元隐藏单元线性修正单元 Sigmoid单元和双曲正切单元设计结构反向传播算法 3 深度前馈网络深度前馈网络也被称之为前馈神经网或者多层感知机。一个前馈网络定义了一个映射函数 y=f(x;θ)，通过学习参数θ，得到最接近样本数据的函数f*估计。 “前馈”并不意味着网络中的信号不能反传，而是指网络拓扑中不能存在回路或环（反馈）。 4 6.1:以学习异或为例目标：让 X = { [0, 0], [0 , 1] ,[1, 0], [1, 1] }在网络中获得正确的结果。前期准备：认为是回归问题采用均方误差作为损失函数假设选择线性模型 5 6.1:以学习异或为例通过求解正规方程得到 w=0,b=0.5 线性模型不能实现异或。当x1为0时，模型的输出要随着x2的增长而增长，当x1 为1时，模型输出要随着x2的增长而减小。线性模型不能通过x1来改变x2的系数！该问题是线性不可分的。 6 6.1:以学习异或为例解决方法：引入含有一个隐层的前馈网络。引入了激活函数：使用线性修正单元作为激活函数： g(z) = max{0, z} 7 6.2：基于梯度的学习对于机器学习模型，为了应用梯度下降我们必须选择一个cost函数。深度神经网络设计的一个重要方面是cost函数的选择。大多情况下，我们使用训练数据和模型预测之间的cross-entropy（交叉熵）作为cost函数。? 8 ：使用最大似然学习条件分布大多数现代神经网络是用最大似然训练的，其cost函数为：由于概率模型p不同，故cost函数是变化的。很多的输出单元包括一个exp函数，这个exp函数能够在参数是很负值的时候饱和，而log-likelihood的log函数会抵消输出单元的exp。? 9 ：学习条件统计与其训练一个全概率的分布p(y|x;Θ)，我们更想仅仅训练一个在输入为x时，y的条件统计。比如，我们有一个预测器f(x;Θ)想要预测y的平均值。? 我们使用一个足够强大的神经网络，我们可以认为这个神经网络能够表示任何f,这些函数f只受到像连续性有界性这样的特征限制。根据上述观点，可以把cost函数看作是一个functional(泛函)而不是function。 functional：把function映射为实数的映射。 10 ：学习条件统计使用变分法得到两个结果：结果一：如果我们训练来自真实数据产生的样本分布，最小化均方误差函数将会给出一个函数，该函数给出了在输入为x时y的均值。 11 ：学习条件统计使用变分法得到两个结果：结果二：该函数产生出在输入为x时y的中值。均方误差和平均绝对误差使用梯度学习时会产生很差的结果。 12 6.2.2：输出单元 cost函数的选择和输出单元联系紧密，大多数时候，我们仅仅在数据分布和模型分布之间使用cross-entropy。如何选择输出单元决定着交叉熵函数的形式。任意类型的神经网络单元作为输出也能作为隐藏单元。这部分，我们认为前馈网提供了由h=f（x;Θ）定义的特征。输出层的任务就是完成神经网络要执行的一种转变。 13 ：线性输出单元使用线性单元的高斯分布：线性单元：无阈值限制的感知器。给定特征h，一层线性输出层单元输出一个向量：线性单元可以输出有条件的高斯分布的均值。可以让高斯分布的协方差成为一个输入的函数，但是要保证让协方差矩阵正定，线性单元难以做到。由于线性单元的不饱和性质，使用梯度下降学习有一定的困难。 14 ：使用sigmoid单元的伯努利分布很多任务要求预测y的一个二元取值，比如二分类问题。对于二项分布，我们只需要预测时的情况。假设我们用线性单元来模拟二项分布：缺陷：当在[0，1]区间外时，输出的梯度变为0。 15 ：使用sigmoid单元的伯努利分布线性单元不能很好的满足我们的需求。可以用sigmoid输出单元结合最大似然来模拟一个二项分布。 Sigmoid单元的输出：把sigmoid单元的输出看成两部分：加权求和（线性层）和使用激活函数输出。 16 ：sigmoid单元模拟伯努利分布过程：在y和z中，使用未归一化的log概率：取对数：归一化: 得到结果： 17 ：sigmoid单元模拟伯努利分布选取最大似然函数法学习获得cost function。这样成本函数中log可以化简sigmoid函数中的exp，且只有函数得到正确答案时才会饱和。使用均方误差作为损失函数，不管得到的是不是正确答案cost函数都可能饱和。损失函数： 18