集成学习简介弱可学习定理AdaBoost及其泛化界泛函梯度下降法.ppt

下载文档 降价啦

38
1
约6.9千字
约 56页
2019-05-30 发布于天津
举报
版权申诉
保障服务

集成学习简介弱可学习定理AdaBoost及其泛化界泛函梯度下降法.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

的一些理论知识目录集成学习简介弱可学习定理及其泛化界泛函梯度下降法集成学习动机在机器学习中直接建立一个高性能的分类器是很困难的但是如果能找到一系列性能较差的分类器并把它们集成起来的话也许就能得到更好的分类器日常生活中所谓的民主决策便是部分的利用了这种想法譬如选总统每个人都以自己的考虑投下自己的一票但最后由多数人选出的总统似乎应该好于由一个人指定的总统集成学习动机集成学习就是一种把输入送入多个学习器再通过某种办法把学习的结果集成起来的办法这每一个学习器也就相应的被称为弱学习器集成学习最早也叫做也就

Boosting的一些理论知识 Some theoretical notes on boosting 目录集成学习简介弱可学习定理、AdaBoost及其泛化界泛函梯度下降法集成学习：动机在机器学习中，直接建立一个高性能的分类器是很困难的。但是，如果能找到一系列性能较差的分类器，并把它们集成起来的话，也许就能得到更好的分类器。日常生活中，所谓的民主决策，便是部分的利用了这种想法。譬如选总统，每个人都以自己的考虑，投下自己的一票，但最后由多数人选出的总统，似乎应该好于由一个人指定的总统。集成学习：动机集成学习，就是一种把输入送入多个学习器，再通过某种办法把学习的结果集成起来的办法。这每一个学习器，也就相应的被称为“弱学习器”。集成学习最早也叫做“Committee Voting Method”，也就是因为它和投票的过程相似。集成学习：如何构造？我们一般选定加权平均的方法来构造集成学习的最终学习器。但是里面的每一个Classifier i怎样做呢？有一些研究，是针对每个学习器都不同构的情况，比如识别一个人，一个学习器考虑脸，另一个考虑步态，另一个考虑指纹。这种研究通常称为Information Fusion，不在我们今天讨论的范畴。我们今天讨论的，是用同样的学习算法来构造不同的弱学习器的方法。集成学习：如何构造？办法就是改变训练集。通常的学习算法，根据训练集的不同，会给出不同的学习器。这时就可以通过改变训练集来构造不同的学习器。然后再把它们集成起来。在原来的训练集上随机采样，可以得到新的训练集。采样时，我们可以给训练集里的每个元素不同的权。权值可以通过上一次训练的结果来确定。带权的采样：讨论通过给训练数据赋以不同的权，实际上使得每个学习器关注训练集中的某一部分，这也符合我们最初民主投票的想法。直观上，每个学习器关注训练集中的某一部分，很多个训练集应该可以覆盖训练集中的大部分，只要巧妙的选择加权平均的权，就可以得到更好的学习效果。用多个学习器覆盖样本空间集成学习：评述集成学习实际上代表了一种与传统不同的思维理念。传统的机器学习一般都自认为是单模型的，对于模型的分析总是在整体上完成。 Rosenblatt：Perceptron Rumelhart: BP Vapnik: SVM 但是，所有这些模型其实都可以看作是一种加权平均的多模型。集成学习：评述所以，当然应该考虑研究一般的多模型。实际上，从90年代开始，对集成学习的研究取得了一系列突破进展。在算法上，集成学习的典型代表AdaBoost算法，已经成为与SVM并立的方法。而且，集成学习比SVM更为一般，可能可以有更广阔的前景。弱可学习定理简单的讲，弱可学习定理就是说：如果一个弱学习器能保证分类错误率小于50%，那么就可以由此构造一个强学习器，让分类错误率达到任意小。弱可学习定理是集成学习的基本定理。由此引发了一系列集成学习的研究。为了研究弱可学习定理，我们要先回顾一下PAC学习的概念。令Xn为n维样本空间。 D为样本v在空间Xn上的分布。 c(v): Xn-{-1,1}为未知的两类分类函数。 H为定义在样本空间上的一个分类器集合。学习的目标是，在H中寻找一个分类器h(v)，使得它能够逼近未知的分类函数c(v)。学习算法拥有一个抽取器，可以从分布D中任意抽取独立同分布样本。逼近的错误率定义为 PAC可学习对于一个概念c，如果存在一个算法，对于任何，能够给出一个分类器h(x)，使得h的错误率小于ε的概率：并且算法在n, ε和δ的多项式时间内完成，则称c是PAC可学习的（或强可学习的）。弱可学习的概念与此几乎完全相同，只是把ε的取值范围改成了，其中的γ可以看成是一个很小的正数。 PAC学习的背景 PAC学习是除了Vapnik的统计学习理论以外，用概率方法来研究学习问题的另一个尝试。它与Vapnik不同的地方就是不强调固定的样本集(训练集)，PAC采用的是一种在线的模型，可以任意的得到新的样本。但是它使用另外一种方法来控制学习算法：时间复杂性。控制了时间复杂性，也就控制了抽样本的次数。 PAC学习的基本方法 Chebyshev不等式：设随机变量X具有数学期望E(X)=μ，方差D(X)=σ2，则对于任意正数ε，有对比PAC可学习的基本表示： PAC学习本质上就是把错误率和样本的抽取过程看成是随机变量，然后用概率论的方法研究之。弱可学习定理定理（弱可学习）：如果一个概念是弱可学习的，则其是强可学习的。这当然是一个不平凡的定理，然而如果不看它的证明，是很难理解这个定理的真正涵义的。这里我们证其中的一个引理，并简要的概述其它部