- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第八章集成学习;8.1集成学习概述;8.1集成学习概述;8.1集成学习概述;投票法(Voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。分类的机器学习算法输出有两种类型,一种是直接输出类标签,另外一种是输出类概率。使用前者进行投票叫做硬投票(Majority/HardVoting),使用后者进行分类叫做软投票(SoftVoting)。
例如,在硬投票中,如果三个算法将特定葡萄酒的颜色预测为“白色”、“白色”和“红色”,则集成算法将输出“白色”;在软投票中,如果算法A以40%的概率预测对象是一块岩石,而算法B以80%的概率预测它是一块岩石,那么集成算法将预测该对象是一块岩石的可能性为(80+40)/2=60%。
;?;?;?;随机森林(RandomForest,RF)就是通过装袋法的思想将多个弱学习器组合在一起,其弱学习器一般采用CART决策树。
随机森林的“随机”体现在两个方面:一是样本的随机选取,即通过有放回采样构造子数据集,子数据集的样本数量和原始数据集一致。不同子数据集中的样本可以重复,同一个子数据集中的样本也可以重复。这样在训练模型时,每一棵树的输入样本都不是全部的样本,使森林中的决策树不至于产生局部最优解。二是特征的随机选取,即随机森林中的决策树的每一个分裂过程并未使用所有特征,而是从所有特征中随机选取一定的特征,之后在随机选取的特征中选取最优划分特征。最后,将多棵决策树的输出进行整合作为最终输出。
随机森林既可以用于分类问题,也可以用于回归问题,生成过程中这两个随机性可以确保不会出现过拟合的情况。
;?;这里我们还要提到一下极端随机树(ExtremelyRandomizedTrees)算法,简称ExtraTree。它与随机森林算法十分相似,主要区别是随机森林采用对数据集有放回随机采样的方式生成多个子训练集,而极端随机树使用整个数据集作为训练集,但是节点的划分特征是随机选取的。因为分裂是完全随机的,所以有时可以得到比随机森林更好的结果。
;提升法(Boosting)是一种重要的集成学习技术,能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计提供了一种有效的新思路和新方法。
提升法可以提升任意给定学习算法的准确度,主要思想是通过一些简单的规则整合得到一个整体,使得该整体具有的性能比任何一个部分都高。其思想受启发于Valiant提出的PAC(ProbablyApproximatelyCorrect)学习模型。
;
在PAC学习模型中,能够在多项式个时间内获得特定要求的正确率即就是一个好的学习过程。该模型由统计模式识别、决策理论得到的一些简单理论并结合计算复杂理论的方法而得出的学习模型,其中提出了弱学习和强学习的概念。
提升法先从初始训练集训练出一个弱学习器,再根据弱学习器的表现对训练样本分布进行调整,使得先前弱学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个弱学习器。如此重复进行,直至弱学习器数目达到指定的值k,最终将这k个弱学习器的输出进行加权结合。提升法包含一系列算法,如AdaBoost(AdaptiveBoosting,自适应提升算法),GradientBoosting(梯度提升算法)等。提升法中的个体分类器可以是不同类的分类器。
;自适应提升算法(AdaBoost)中有两种权重,一种是样本的权重,另一种是弱分类器的权重。样本的权重主要用于弱分类器计算误差最小的划分特征,找到之后用这个最小误差计算出该弱分类器的权重(发言权),分类器权重越大说明该弱分类器在最终决策时拥有更大的发言权。其原理是通过调整样本的权重和弱分类器的权重,对关键分类特征进行挑选,逐步训练不同的弱分类器,再用适当的阈值选择最佳弱分类器,最后将每次迭代训练选出的最佳弱分类器构建为强分类器。因此,每一个弱分类器都是在样本的不同权重集上训练获得的。每个样本被分类的难易度决定权重,而分类的难易度是经过前面步骤中的分类器的输出估计得到的。
;在自适应提升算法中,每训练完一个弱分类器都就会调整权重,上一轮训练中被误分类的样本的权重会增加。因此在本轮训练中,由于权重影响,本轮的弱分类器将更有可能把上一轮的误分类样本分对,如果还是没有分对,那么分错的样本的权重将继续增加,下一个弱分类器将更加关注这个点,尽量将其分对。也就是说,下一个分类器主要关注上一个分类器没分对的样本,因此每个弱分类器都有各自最关注的点,每个弱分类器都只关注整个数据集的中一部分数据。但是这也产生了一个问题,就是第n个分类器更可能分对第n-1个分类器没分对的样本,却不能保证以前分类器分对的样本还
文档评论(0)