关于统计学习的理论博大精深.docVIP

下载本文档

5
0
约4.92千字
约 12页
2016-06-19 发布于重庆
举报
版权申诉

关于统计学习的理论博大精深.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于统计学习的理论博大精深

关于统计学习的理论博大精深，想要弄明白是需要花费很大功夫的，涉及到方方面面的数学知识(比如泛函分析、高等数学、概率论、统计学…….)，我这里也就是把一些基本概念、理论规整一下。 ?????? 存在一个未知的系统、给定的输入样本空间和这些输入样本通过处理后的输出。机器学习的过程可以看做是这样的：利用机器学习的方法，根据和得到一个学习机(也可以叫模型)，学习机在接受训练、测试样本以外的样本后得到的输出可以被认为是未知系统针对输入得到的输出的近似，所以这个学习机可以认为是对的内在规律的近似。 ?????? 实际上，可以将从输入空间产生样本(向量)看做从于某个客观存在的、确定的但是未知的概率分布函数中相互独立地抽取出来的；显然由这些通过产生的输出服从，而我们的学习器应该是一个函数集合，这里的为参数集合，例如：线性分类器集合为，通过对参数的不同取值，我们可以得到一个函数集合；那么寻找这个学习器的过程就变成了从这个函数集合中找出能最佳逼近输入样本的函数。输入和输出服从联合概率分布函数，也就是说所有训练数据、测试数据的都是从中相互独立地抽取出来的样本。 ??????? 那么如何衡量逼近是否最佳呢？需要定义一个损失函数：? (当输入为时，度量学习器的输出和由系统得出的输出之间的差异)。还记得连续随机变量函数的数学期望不？设连续随机变量的概率密度为，若其函数，则随机变量的数学期望定义为： ???????????????????????????????????????????????????????????????? 有了上面的概念就可以得到损失的数学期望： ???????????????????????????????????????????????????????????????? 这里就是风险泛函，也有人叫期望风险。注意这里的和都是已知的，是未知的但是确定的，由不同确定的是未知的。现在就可以将学习过程描述为利用经验数据(就是我们的样本对)最小化风险泛函的过程。显然这个我们没法知道，那就需要一个替代方案：，于是学习过程就变成了用使经验风险最小的函数逼近使风险泛函最小的函数的过程，这个原则就是传说中的经验风险最小化(ERM)归纳原则。举个体现ERM的例子：回归问题中的最小二乘法(用做函数)和概率密度估计中的极大似然法(用做函数)，哈哈。 ??????? 把学习问题进行一般化的表示，如下：在空间Z上有一个概率分布，用z代替，用来代表独立同分布样本，特定的损失函数用表示，那么风险泛函就表示为： ????????????????????????????????????????? ，（其中为参数集合）于是经验泛函就表示为： ????????????????????????????????????????? 最终我们的学习器就是用能最小化的函数去逼近能最小化的。 1、学习过程的一致性 ??????? 上面的一大堆表示就是为后面的定义和定理做准备的，这些定义和定理是学习理论的基石，我就把我懂得地方说说吧，另外“偷”一些经典的图过来。定义1：经验风险最小原则下的学习一致性是：下面两个序列依照概率收敛于同一个极限时，则说ERM原则对函数集和概率分布是一致的。 ????????????????????????????????????????? ，????? （其中为参数集合） ????????????????????????????????????????? ，（其中为参数集合）我理解这个定义的含义是：满足这个条件就可以保证在经验风险最小的原则下得到的学习方法在训练样本数量趋于无穷的时候可以使期望风险达到最小从而能最好的模拟未知系统S，定义等价于，这个ERM学习方法提供了一个序列，，期望风险和经验风险在这个序列上都能收敛到最小可能风险。可以发现这个定义有个问题：如果从函数集去掉某个特定函数后发现它不一致了，就是说函数集的一致性由某个特殊函数决定了，显然这不是我们希望的，这种情况下的一致性叫做平凡一致性，真正对学习有意义的应该是函数集的非平凡一致性。贴个图，要去除平凡一致性，其实改一改定义就行了。定义2：对于函数集的任意非空子集： ????????????????????????????????????????? ，（其中为参数集合，）都有，（其中为的参数集合）成立，则说ERM原则对函数集和概率分布是非平凡一致的。这个定义等价于从函数集中去掉能最小化风险的函数后上式仍然收敛。 ?????? 下面这个定理就是传说中的学习理论的关键定理，是大牛Vapnik和Chervonenkis提出的，这个定理要说的是ERM原则一致性的条件取决于函数集中最坏的函数，也就是说基于ERM原则的分析都是“最坏情况分析”，从理论上说，根据ERM原则想要找到一种学习