用于神经网络权值稀疏化的L1_2正则化方法.pdfVIP

下载本文档

236
0
约4.9万字
约 18页
2016-03-17 发布于安徽
举报
版权申诉

用于神经网络权值稀疏化的L1_2正则化方法.pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用于神经网络权值稀疏化的L1_2正则化方法.pdf

中国科学: 数学 2015 年第45 卷第9 期: 1487 1504 综述用于神经网络权值稀疏化的正则化方法献给徐利治教授华诞 ∗ 吴微杨洁大连理工大学数学科学学院, 大连 116024 E-mail: wuweiw@dlut.edu.cn, yangjiee@dlut.edu.cn 收稿日期: 2015-02-27; 接受日期: 2015-05-06; * 通信作者国家自然科学基金(批准号: 资助项目摘要在保证适当学习精度前提下, 神经网络的神经元个数应该尽可能少 (结构稀疏化), 从而降低成本, 提高稳健性和推广精度. 本文采用正则化方法研究前馈神经网络的结构稀疏化. 除了传统的用于稀疏化的L 正则化之外, 本文主要采用近几年流行的L 正则化. 为了解决L 正则化算子不光滑、容易导致迭代过程振荡这一问题, 本文试图在不光滑点的一个小邻域内采用磨光技巧, 构造一种光滑化L 正则化算子, 希望达到比L 正则化更高的稀疏化效率. 本文综述了近年来作者在用于神经网络稀疏化的L 正则化的一些工作, 涉及的神经网络包括BP 前馈神经网络、高阶神经网络、双并行前馈神经网络, 以及Takagi-Sugeno 模糊模型. 关键词神经网络稀疏化正则化主题分类 68T05 引言人工神经网络研究包含两个主要部分, 其一是权值优化, 即针对给定的某种网络结构, 选取适当的学习方法寻求最优权值, 使得训练误差 (训练样本集上的误差) 和推广误差 (未用于训练的样本的误差) 都足够小 (参见文献 [1, 2]); 其二是结构优化, 即选择适当的活化函数、网络层数、单元连接方式、单元数量等 (参见文献 [3–5]). 人工神经网络研究已经得到近几十年的迅猛发展. 相比较而言, 神经网络结构优化研究远不如权值优化研究那样丰富和成熟. 从神经网络精度的角度来看, 结构稀疏化的研究意义在于, 单元数量太少当然无法达到必要的精度, 但是, 单元数量太多则除了增加成本之外, 还容易导致过度训练, 即训练误差很小, 而推广误差很大并且稳健性变坏. 事实上, 神经网络中的单元与权值连接数量很像用多项式作数值逼近时的多项式次数. 达到一定限度之后, 单元与权值连接数量越多 (或多项式次数越高) 则训练精度越高, 但推广精度越低. 主要原因在于, 单元与权值连接数量越多 (或多项式次数越高), 越容易产生振荡 (注意多项式次数决定了其 “拐弯” 的次数), 此即逼近理论中著名的所谓龙格现象. 实际应用中, 神经网络常常要制成相应的电路或光路等硬件. 从这一方面看, 结构稀疏化意味着降低制造成本, 成为神经网络成功应用的重要一环. 英文引用格式吴微等: 用于神经网络权值稀疏化的正则化方法神经网络权值优化的研究成果已经相当丰富和成熟. 传统的并且最简单的权值学习算法是梯度法 (BP 算法) , 以及加上动量项、惩罚项等许多不同机制的各种修正算法(参见文献 [8,9]). 近些年流行的极端学习机 (ELM) 算法, 是神经网络学习算法研究的重大进展 (参见文献 [10]). ELM 基本解决了困扰多年的BP 算法收敛慢这一大难题. 为了保证 ELM 的收敛性, 理论上要求神经网络的隐单元个数必须足够多. 但是为了保证推广精度, 隐单元个数又应该尽可能少. 因此很显然, 结构稀疏化又成为ELM 学习算法得以成功应用的一大关键 (参见文献 [11–13]). 正则化方法也称为 Bayes 正则化 . 正则项能够防止权值过大以及过度训练, 从而起到改善推广误差的效果; 但是并不能驱使某些权值趋于零, 从而不能起到权值或单元稀疏化的效果. 受压缩感知理论中Lasso 算法的影响, 人们将正则化用于神经网络权值和单元稀疏化 , 起到不错