前馈神经网络介绍03..docVIP

下载本文档

1
0
约5.56千字
约 14页
2017-01-10 发布于重庆
举报
版权申诉

前馈神经网络介绍03..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

前馈神经网络介绍03.

4.13 函数逼近通用逼近定理令是一个非常数、有界、单调增的连续函数，令表示维单位超立方体，上连续函数空间用来表示, 则给定任何函数，，存在一个整数和实常数集，在这里，这样我们就可以定义： (4.86）作为函数的一个近似实现；也就是：对存在于输入空间中的所有均成立。多层感知器结构的神经元模型中logistic函数确实是一个非常数、有界、单增函数；而且它满足函数上的条件。通用逼近定理是存在性定理，为任意连续函数的逼近提供了数学上的基础。这个定理说明对于多层感知器计算一个由输入和期望（目标）输出表达的给定训练集的一致逼近来说单个隐含层是足够的。逼近误差的边界令表示函数的多维傅立叶变换，；为频率向量。函数由它的傅立叶变换函数的反变换公式形式定义：（4.87）在这里。定义函数的傅立叶幅度分布的第一绝对动量如下：（4.88）第一绝对动量量化了函数的光滑度或者匀称性。一个半径的球体, 误差界定理：对于每个具有有限第一绝对动量的的连续函数，并且每个，则存在一个由公式（4.86）定义形式的S形函数的线性组合得到的函数：其中。当观察到函数由表示的的输入向量值的集合严格属于球体内部的时候，这个结果对经验风险提供如下的界：（4.89）使用具有个输入节点和个隐含神经元的多层感知器而导致的风险的界：（4.90）关于风险的界的两项表达了两种对隐含层大小互相矛盾的要求之间的折衷：令表示估计误差的均方值。然后忽略公式（4.90）中表达式的第二项的指数因素，我们可以推断出一个好的泛化所需的训练集大小大约是。其中是等于网络中自由参数的总数的。从总体上认为为了得到好的泛化，训练例子的数目应该大于网络中自由参数总数量和估计误差均方值之比。维数灾当隐含层的大小由下式优化设置（也就是，风险关于最小化）的时因此，风险由界定。在风险的一阶条件中，以训练集大小表达的收敛速度取决于（乘以一个对数因子的倍数）。对传统的光滑函数（举例来说，多项式和三角函数），令表示光滑度的大小尺度，定义为函数的连续导数的数目。总风险的最小最大的收敛速度取决于。这个依赖于输入空间维数的收敛速率，就是维数灾，这几乎完全制约了这些函数的实际应用。应用于函数逼近的多层感知器的使用看来提供了超越于传统函数的优势；但是这个优势受限于第一绝对动量保持有限的条件；这是一个光滑度约束。 Richard Bellman在他对自适应控制过程的研究（Bellman 1961）中介绍了维数灾。为了从几何上解释这个概念，令表示一个维的输入向量，表示训练样本。采样密度与成正比。令函数代表一个存在于维输入空间的平面，它通过点。现在如果函数是任意复杂并且（对绝大部分来说）是完全未知的，我们需要密集的样本（数据）来进行很好的学习。不幸的是，密集样本在“高维”中是很难找到的，因此产生了维数灾。在个别情况下，维数增加的结果导致复杂度呈指数增长，从而导致高维空间中均匀随机分布点的空间填充性质退化。维数灾的基本原因如下（Friedman，1995）：定义在高维空间的函数看来远远比定义在低维空间上的函数复杂得多，并且这些复杂的东西是更难以区分的。克服维数灾难的唯一可行办法是在训练数据上混合关于这个函数的一些先验知识，这些先验知识已知是正确的。在实际中，同样存在这这样的论据：即如果希望在高维空间中得到好的泛化性能，对于增大的维数我们必须假设未知潜在函数的更高的光滑度要求（Niyogi和Girosi，1996）。这个观点将在第五章中继续深入讨论。可行性考虑从理论的观点来看，总体逼近理论是重要的，因为它为具有单个隐含层的前馈网络作为一类逼近器的正确性提供了必要的数学工具。如果没有这样一个理论，我们可能在寻找那些并不存在的方法。然而，这个理论并不是构建性的，亦即是，它实际上并不能具体说明如何由一定的逼近性质决定一个多层感知器。总体逼近理论假设被逼近的连续函数是给定的并且一个无限制的隐含层对逼近是可用的。这两个假设在绝大多数多层感知器的实际应用中都是大胆的。使用单个隐含层的多层感知器的问题是那里的神经元趋于整体地相互作用。在复杂情形下这种相互作用使得在一点提高它的逼近同时不恶化它在其它点上的逼近变得困难。在另一方面，在具有两个隐含层的情况下逼近（曲线拟合）过程变得更容易处理。具体地，我们可以进行如下处理（Funahashi，1989；Chester，1990）：从第一个隐含层中抽取的局部特征。特别地，在第一个隐含层中的一些神经元经常将输入空间分割成