核方法-核方法的稳定性分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
核方法-核方法的稳定性分析

核方法(3 )-核方法的稳定性分析 Y.Q. Wang 2016 年2 月28 日 1 摘要 本章将重点分析核方法的稳定性:如何分析模型的抗噪性,以及抵抗训练数据的噪音使得模型 不会出现过拟合现象。“集中度” 是分析具体函数的抗噪性的评价方法。通过对某一随机变量做随 机扰动,观察具体函数的误差上界。McDiarmid 不等式是集中度评价的常用方法。本章会详细介 绍McDiarmid 不等式,并提供对应的证明方法以便理解。推论Hoeffding 不等式是Mcdiarmid 不 等式的简化分析分析方法。通过采用核方法的质心估计这一应用问题,希望能够较为形象地帮助理 解集中度分析的作用。进一步的,知道一类函数对应用问题的capacity (即抗噪性,函数对测试集 的鲁棒性)也是一个关键问题。在传统的机器学习中,利用VC 维分析是计算 capacity 的一种常 见方法。本章介绍Rademacher 复杂度,并用Rademacher 复杂度来评价一类函数的capacity 。利 用 Rademacher 复杂度,可以直接从给定的训练集上计算函数的capacity 。接着以分类问题为例, 考虑 kernel-based linear function 作为分类函数,具体分析这类函数的Rademacher 复杂度。根据 计算结果,提高函数的capacity 可以通过两类基本途径:正则化或增加训练样本数量。训练样本通 ′ 常不能掌控,因此正则化是一种更为有效的途径。在核方法中,正则化一般指限制 的规模, 对其引入范数进行约束。对具体的问题,核方法的稳定性分析会视其场景变化而稍有不同(未来就 具体问题逐个分析)。最后本章介绍了Rademacher 复杂度的7 个基本性质,以便扩展到具体应用 问题中去。另外,掌握核方法的稳定性分析并不是应用核方法的必要环节,如无特殊需求,只需记 住其中的若干结论即可:-)。 2 集中度不等式(Concentration inequality) 在机器学习中,确定任一通过有限的训练集所获得的固定函数是否是稳定的,一个关键的 方法就是对数据做变换(与由变换前的数据同源)使用同一函数,判断函数输出的前后差异。 Concentration (集中度)是这类评价方法的一个重要属性:对某一随机变量做变换,考察函数的前 后差异。在集中度测试中,我们需要对选定的随机变量做一个非常小的扰动(通常可以是一个服从 1 指数族分布的扰动),并认为这种扰动所带来的数据变换能够保证新数据依旧与原数据是同源的。 集中度测试结果所满足的不等式情况称之为concentration inequation 。 下面就集中度评价中最为出名的McDiarmid inequality 做展开说明: [McDiarmid’s inequality] 令 为从集合 中取值的 个独立的随机变量。假设函数 满足 sup (1) 则对所有的ϵ 都有 ( ϵ ) ∑ ϵ exp (2) 证明:证明该不等式需要掌握以下几点内容。 [Markov’s inequality] 对任一非负随机变量 ,

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档