- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
前馈神经网络介绍04.
4.15 网络修剪技术
问题是在保持良好性能的同时使网络的规模最小化。具有最小规模的神经网络具有更小的可能性去学习训练数据的伪特征或者噪音,这样可能对新的数据有更好的泛化。用如下两个途径中的一个来达到这个设计目标:
网络生长法,以一个小的多层感知器开始,小到能实现当前任务即可,否则增加一个新的隐含神经元或者一个新的隐含层。
网络修剪法,以一个很大的能解决当前问题的多层感知器开始,然后通过有选择性的和有规律的方式削弱或者消除某些突触权重来进行修剪。
讨论两种逼近,一种基于“正规化”的形式,另一种基于从网络中“删除”某些连接的形式。
复杂度正规化
设计一个多层感知器,实际上是对输入输出样本的物理现象建立一个非线性模型。由于网络的设计在本质上还是统计学的问题,需要在训练数据的可靠性和模型的适应度之间寻找一个适当的折中(亦即是,解决偏置方差两难选择的方法)。在这个问题上的监督学习过程,通过最小化表述如下的总体风险都可能实现这个折中:
(4.94)
在第一项中,是标准的性能度量准则,它同时依赖于网络(模型)和输入数据。在反向传播学习中,它定义为均方误差,该误差估计扩展到网络地输出神经元并且它针对所有训练样本;
第二项中的是复杂度的惩罚因子,它单独依赖于网络(模型);
为正规化参数,它代表着复杂度惩罚因子项关于性能度量项的相对重要性。
当=0,反向传播学习过程是非约束的;
?? 复杂度惩罚因子所得到的约束自身就可以具体确定网络,用另一种说法这就是训练样本是不可靠的。
在一般设置中,复杂度惩罚因子项的一个选择是第阶光滑积分
(4.95)
这里是模型实现的输入输出映射,是某个决定输入空间区域的权重函数,它表示了在这个输入空间上对函数光滑性要求的不同程度。这里的目标是使得关于输入向量第阶微分较小。我们选择越大,函数就变得越光滑(亦即是,更少的复杂度)。
三种不同(难度递增)的复杂度正规化方法。
权重衰减
(4.96)
权重消除 复杂度惩罚因子定义为
(4.97)
逼近光滑器 采用如下形式的复杂度惩罚因子项:
(4.98)
其中时输出层的权重,时隐含层中第个神经元的权重向量;幂定义为
对于全局光滑器
(4.99)
对于局部光滑器
其中是关于的微分的阶数。
基于Hessian矩阵的网络修剪
基本思想是利用误差表面的二次导数信息来得到网络复杂度和训练误差性能之间的折中方案。特别地,构造误差表面上的一个局部模型是为了解析地预测突触权重的扰动所造成的影响。这样一个模型结构的出发点是关于运行点附近使用台劳级数给出代价函数的局部逼近,表述如下:
(4.100)
其中?w是运行点的扰动,是处的梯度向量。Hessian 矩阵同样在点进行估计,用来表示它。
找到一组参数使得从多层感知器上删除它们而代价函数的值增长最小。为了在现实条件中解决这个问题,我们进行如下的逼近:
1.极值逼近。我们假设参数仅在训练过程收敛之后才被从网络中删除(亦即是,网络是被完全地训练的)。这个假设的含意就是参数的取值为误差表面上一个局部最小或者全局最小。此时梯度向量可以设为零并且公式(4.100)右边的项因而被忽略。
2.二次逼近。我们假设局部最小或者全局最小周围的误差表面是近似“二次的”。因此公式(4.100)中的更高次项同样可以被忽略。
在这两个假设之下,公式(4.100)被简单近似为
(4.101)
最优大脑损伤(Optimal Brain Damage, OBD)过程(LeCun等人,1990b)通过更进一步的假设简化了这个计算:H矩阵是一个对角阵。然而,在最优大脑外科(Optimal Brain Surgeon, OBS)过程(Hassibi等人,1992)中并没有进行这样的假设;因此,它包含了OBS过程作为一个特例。我们讨论OBS策略。
OBS的目标是使突触权重的其中之一为零以最小化公式(4.101)中给定的加速增长的。令代表这个特别的突触权重。这个权重的删除等于如下的条件成立
或者
(4.102)
其中是除了第个元素等于单位1之外其他所有元素均为零的单位向量。我们现在可以重申OBS的目标如下(Hassibi等人,1992):
最小化考虑了权重向量增长变化?w的二次形,使它满足约束条件为零,然后关于标示数求最小化。
这里进行了两个层次上的最小化,一个最小
您可能关注的文档
最近下载
- 膝关节置换术术后护理ppt.pptx
- 2025中考时政热点话题与知识链接.pdf VIP
- 国家开放大学电大《计算机应用基础(本)》终结性考试试题答案(格式已排好)任务二.pptx VIP
- 公诉人在法庭上讯问被告人应把握规则和方法.doc VIP
- JT_T 1499-2024 公路水运工程临时用电技术规程.pdf VIP
- DB32∕T 3160-2016 高等学校智慧校园建设与应用规范地方标准.pdf VIP
- 刑事诉讼法和公安机关办理刑事案件程序规定.ppt VIP
- 2025年最新国家开放大学电大《家畜解剖基础》期末题库及答案 .pdf VIP
- 工程投入的主要物资(材料)情况描述及进场计划.docx VIP
- 国开电大网络存储技术(福建)形考任务二参考答案.doc VIP
文档评论(0)