对统计机器学习中VC维理论理解.docxVIP

下载本文档

32
0
约3.45千字
约 4页
2018-07-06 发布于上海
举报
版权申诉

对统计机器学习中VC维理论理解.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对统计机器学习中VC维理论的理解该篇读书报告是针对文献《Introduction to Statistical Learning Theory》，这篇文献详细介绍了统计机器学习的相关理论，但是内容很多而且比较难懂。所以我在阅读文献的过程中还参考了一些网上的博客，以帮助我理解一些抽象的理论。有关VC维的理论是经典统计机器学习的核心，所以我想围绕VC维来对我文献阅读的成果进行总结。在介绍VC维之前，我觉得需要先把两部分内容说清楚。第一，VC维理论是用来解决统计机器学习问题的，所以统计机器学习的流程需要说清楚；第二，VC维的理论基础是Hoeffding不等式，所以Hoeffding不等式的概念也需要说清楚。首先，在文献里，统计机器学习的流程是这样定义的：假设一个输入空间X和输出空间Y，(X,Y)∈X×Y且(X,Y)是服从未知分布P的随机变量。目标是通过观察抽样得到的一系列独立同分布（均服从未知的P分布）的(Xi,Yi)，以构建一个函数g :X→Y函数g的选取需要一个衡量标注，这个标准是低的错误概率P(g(X≠Y))，并将这一概率值称为g的期望Rg=PgXR(g)的最小值记作R*，称为贝叶斯风险。R*所对应的函数记作但是，由于分布P是未知的，我们不能直接计算得到R(g)的值，所以也就无法通过已知数据集直接找到目标函数t。因而引入经验风险的概念，记作：Rng=1并将经验风险作为选择目标函数t的估计的一个标准。由此，我把统计机器学习的最终目的归纳为两方面的要求：1. Rn2. R(g)与Rng的大小要足够接近。能够同时满足（1）（2）两个条件是最好的结果，但是很遗憾的是这两个条件是存在矛盾的。过分地满足（1），则（2）就很难满足，而且会出现过拟合的现象，即泛化性差；过分地满足（2），则（1）就很难满足，即学习的准确率低。为什么会出现这样的矛盾，或者怎样解释这样的矛盾？需要将R(g)与Rng之间的关系作定量的表示。这就要用到接下来要介绍的Hoeffding不等式是关于一组随机变量均值的概率不等式。它本质说明了一组独立随机变量的均值离开它的期望的可能性以指数形式衰减。如果Z1,Z2,?,Zn为一组独立同分布的随机变量，且fZ∈[0,1]（考虑二元分类问题）。对于?εP1ni=1n其中，Rng=1n以上是Hoeffding不等式的基本形式，为了将其更好地用于分析，可以将其改写成：对于任何个g和任何δ0，有至少1-δ的概率使得下式成立：Rg≤Rng+log2δ然而这个公式只针对一个g，而实际情况是从一个给定的函数空间里选取g。所以推导出如下不等式：对于G={g1,g2,…,?g∈G，Rg≤再将上式进行放缩和改写得到函数空间G（即假设空间）有限的情况下（N为一个常数）的最终结果，supg∈G(Rg从这个最终的不等式就可以解释为什么会出现上面所说的要求（1）（2）的矛盾问题。当选取小的N时，不等式右边较小（较紧的泛化误差界），即Rg与Rng接近；但是由于小的函数空间就意味这候选的函数g总量小，这就会导致经验误差Rng较大。当选取大的N时，即函数空间大，候选的函数g总量大，经验误差Rng 上述的处理方式都是在函数空间的势是有限值的情况下，但当函数空间的势是无限大的时候，无穷个偏离可能性的和是个无穷大的数，这样的上界就是无意义的。所以这种情况下，使用Hoeffding不等式是不够的，VC维的理论就是为这样“无限大”的情况所准备的。这里先要搞清楚VC维理论的思想以及它具体如何解决函数空间的势无限大的问题。为了处理这种情况，我们的前辈们注意到了以下两个情况：1.假设空间中的所有函数偏离情况的上确界是所有函数偏离情况的上界；2.在任何有限的样本上（比如n），尽管函数空间的势是无穷的，但是它们作用在有限个样本的分类情况却是有限的（上界是2n如果我们能够找到偏离情况的上确界的概率的一个上界，并且这个上界能够以有限个样本上的某种概率表达出来，我们就能解决问题。具体的做法是：证明偏离情况的上确界的概率的一个上界是两个同样大小的从同一分布中抽取的训练样本集合经验风险之差的概率的上确界。然后对后者就可以使用有限假设空间下的Hoeffding不等式，得出后者偏离情况的概率描述。为了得到比较精确的界的描述，必须刻画函数集合在有限样本上的分类情况，这个分类情况对应的术语叫生长函数（记作SG(n)），它表示n个样本被函数空间的函数们分成不同情况的最大值。为了计算生长函数，VC维被定义出来，它描述了函数集合分类样本的能力，具体表现为函数集合能够任意分类的最大样本个数。具体的定义为：一个假设空间G的VC维（记作h）是使得生长函数SGn=2n成立（即n个样本可以被打散）最大的由定义可以很容易地得出以下结论：SGn=2n，n通过数学归纳法可以总结为：对于所有的n∈N，SGn≤i=0hn将