神经网络误差函数.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
神经网络误差函数神经网络误差函数

关于误差函数的深入研究 姓名:李宏成 学号:6720130345 摘要 我写这篇文章的目的意在补充老师上课中遗留的一些问题以及我自身对神经网络中误差函数的一些看法。文章涉及到hebb学习规则中误差函数推导过程,非线性传输函数中误差函数推导过程以及感知机的误差函数证明。如有不足之处,敬请谅解。 Hebb学习规则中误差函数的推导过程 首先,在推导过程中我们首先要问问自己为什么我们要选择最小二乘?有许多东西都可以被优化,为什么我们要选择这样的指标()? 其次,理论的推导过程是以有监督hebb学习规则为前提,采用的传输函数是类似于线性联想器的purelin函数。此函数为一过原点且斜率为1的直线,因此整个系统的输出结果就可以直接认为是该系统的净输入。 在这里,我们先定义如下几个基本参数 表示训练的样本数目 表示输入变量 表示实际输出 表示权值参数 于是就构成了一个训练样本,更一般的表示第列训练样本集。所以,我们可以用如下表达式来表述成我们所预想的结果: (1.1) 为了突出权值在实际输出函数中的作用和更具有真实性质,以上式(1.1)子我们可以改写成: (1.2) 其中是一个偏置项,你可以把偏置项看成是对未建模事物产生的效应的一种估测。我们举个例子,购买房屋时我们主要是考虑房子每平米的价格,地理位置等主要特征(这里所指的权值),也许房子还有其它的特征比如说朝向,楼层高度,是否有电梯等因素。 用矩阵形式表示(1.2)可以改写成: (1.3) 现在我们假设偏置项服从均值为0,方差为的高斯分布,那么它的概率密度函数可以表示为: (1.4) 观察等式(1.4)的右半部分,我们不难看出输出项服从均值为,方差为的高斯分布。这里假设不同输入对应的偏置项是彼此独立同分布的,这意味着它们都服从均值和方差完全相同的高斯分布。现在我们定义一个似然性函数: (1.5) 由于所有的不同输入对应的偏置项都是彼此独立同分布的,则按上式列拆开就可以改写成: (1.6) 似然性越好,拟合的程度也就越高。这里我们通过调节权值矩阵来使得样本点尽可能的落在拟合线上或者是它附近区域内。这样我们才能够更精确地预测到所需要得到结果的最大概率。为了使得数学运算简便,我们定义=称之为对数似然性函数。这样,上式我们可以进一步得到: (1.7) (1.8) 所以,要使得最大则只需最小即可。在这里我们又定义函数: (1.9) 当等于零时,这个系统的似然性取得最大值。说明此模型的拟合度达到最佳状态;当不等于零时,这个系统的似然性不为最大值,因此就说明此模型存在一定的误差。 其实,在某种意义上来说,似然性可以等价为训练样本与拟合线之间的距离。当训练样本越靠近拟合线,取到这点的概率就越大,相应的似然程度就越高;当训练样本远离拟合线时,取到这点的概率越小,相应的似然程度也就越低。 这里,我们不妨将用矩阵的形式表示,即为: (1.10) 此函数即为这个模型的误差函数。值得注意的是,此误差函数的推导过程是建立在彼此独立且同为高斯分布的基础之上。但是,这并不能否认其不适用于其他模型。对于式子 中其实我们可以将偏置项看成是整个系统的次要特征项(其中权值矩阵是这个系统的主要特征矩阵),或者你也可以认为它就是误差项。由于不同输入向量对应着不同的偏置向量且是彼此独立且同高斯分布的,所以,根据中心极限定理对大量离散进行抽样所得的抽样分布依然是服从高斯分布的。实际上,我们生活中有很多的问题都可以近似地认为是高斯分布比如说噪声的概率密度分布就可以近似地认为是服从正态分布的。 非线性误差函数的推导过程 上述所介绍的最小二乘是建立在偏置项满足高斯分布且独立同分布的情况下,使似然性达到最大值,从而判断出误差函数的具体解析式,它实际上是一种基于线性回归思想的建模方法。在某些情况下应用线性回归

文档评论(0)

cxiongxchunj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档