用于神经网络权值稀疏化的L1_2正则化方法.pdfVIP

用于神经网络权值稀疏化的L1_2正则化方法.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用于神经网络权值稀疏化的L1_2正则化方法.pdf

中国科学: 数学 2015 年 第45 卷 第9 期: 1487 1504 综 述 用于神经网络权值稀疏化的 正则化方法 献给徐利治教授 华诞 ∗ 吴微 杨洁 大连理工大学数学科学学院, 大连 116024 E-mail: wuweiw@dlut.edu.cn, yangjiee@dlut.edu.cn 收稿日期: 2015-02-27; 接受日期: 2015-05-06; * 通信作者 国家自然科学基金(批准号: 资助项目 摘要 在保证适当学习精度前提下, 神经网络的神经元个数应该尽可能少 (结构稀疏化), 从而降低成 本, 提高稳健性和推广精度. 本文采用正则化方法研究前馈神经网络的结构稀疏化. 除了传统的用于 稀疏化的L 正则化之外, 本文主要采用近几年流行的L 正则化. 为了解决L 正则化算子不光 滑、容易导致迭代过程振荡这一问题, 本文试图在不光滑点的一个小邻域内采用磨光技巧, 构造一种 光滑化L 正则化算子, 希望达到比L 正则化更高的稀疏化效率. 本文综述了近年来作者在用于神 经网络稀疏化的L 正则化的一些工作, 涉及的神经网络包括BP 前馈神经网络、高阶神经网络、双 并行前馈神经网络, 以及Takagi-Sugeno 模糊模型. 关键词 神经网络 稀疏化 正则化 主题分类 68T05 引言 人工神经网络研究包含两个主要部分, 其一是权值优化, 即针对给定的某种网络结构, 选取适当 的学习方法寻求最优权值, 使得训练误差 (训练样本集上的误差) 和推广误差 (未用于训练的样本的误 差) 都足够小 (参见文献 [1, 2]); 其二是结构优化, 即选择适当的活化函数、网络层数、单元连接方式、 单元数量等 (参见文献 [3–5]). 人工神经网络研究已经得到近几十年的迅猛发展. 相比较而言, 神经网 络结构优化研究远不如权值优化研究那样丰富和成熟. 从神经网络精度的角度来看, 结构稀疏化的研究意义在于, 单元数量太少当然无法达到必要的精 度, 但是, 单元数量太多则除了增加成本之外, 还容易导致过度训练, 即训练误差很小, 而推广误差很 大并且稳健性变坏. 事实上, 神经网络中的单元与权值连接数量很像用多项式作数值逼近时的多项式 次数. 达到一定限度之后, 单元与权值连接数量越多 (或多项式次数越高) 则训练精度越高, 但推广精 度越低. 主要原因在于, 单元与权值连接数量越多 (或多项式次数越高), 越容易产生振荡 (注意多项式 次数决定了其 “拐弯” 的次数), 此即逼近理论中著名的所谓龙格现象. 实际应用中, 神经网络常常要制 成相应的电路或光路等硬件. 从这一方面看, 结构稀疏化意味着降低制造成本, 成为神经网络成功应 用的重要一环. 英文引用格式 吴微等: 用于神经网络权值稀疏化的 正则化方法 神经网络权值优化的研究成果已经相当丰富和成熟. 传统的并且最简单的权值学习算法是梯度法 (BP 算法) , 以及加上动量项、惩罚项等许多不同机制的各种修正算法(参见文献 [8,9]). 近些年流 行的极端学习机 (ELM) 算法, 是神经网络学习算法研究的重大进展 (参见文献 [10]). ELM 基本解决 了困扰多年的BP 算法收敛慢这一大难题. 为了保证 ELM 的收敛性, 理论上要求神经网络的隐单元 个数必须足够多. 但是为了保证推广精度, 隐单元个数又应该尽可能少. 因此很显然, 结构稀疏化又成 为ELM 学习算法得以成功应用的一大关键 (参见文献 [11–13]). 正则化方法也称为 Bayes 正则化 . 正则项能够防止权值过大以及过度训练, 从而起到改善 推广误差的效果; 但是并不能驱使某些权值趋于零, 从而不能起到权值或单元稀疏化的效果. 受压缩感 知理论中Lasso 算法的影响, 人们将正则化用于神经网络权值和单元稀疏化 , 起到不错

文档评论(0)

eorihgvj512 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档