郑州大学-机器学习 集成方法.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

集成方法汇报人:田艺儒2022年10月8日

目录CONTENTSPART01思想PART02分类PART03Adaboost

01PARTONE思想

思想使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。三个臭皮匠顶个诸葛亮

集成学习的理论基础来自于Kearns和Valiant提出的基于PAC(probablyapproximatelycorrect)的可学习性理论,PAC定义了学习算法的强弱:弱学习算法:如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好。强学习算法:如果存在一个多项式的学习算法能够学习它,并且学习的正确率很高。思想

思想强学习器G(x)多个弱学习器优点:集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。

集成学习需要关注的问题?个体学习器如何训练得到?改变训练数据的权值或概率分布如何将个体学习器组合?思想

02PARTTWO分类

02分类个体学习器间存在强依赖关系,必须串行生成的序列化方法,比如:Boosting。个体学习器间不存在强依赖关系,可同时生成的并行化方法,比如:Bagging和随机森林。

Boosting工作机制提高那些在前一轮被弱分类器分错的样本的权值。减小那些在前一轮被弱分类器分对的样本的权值(使误分的样本,在后续受到更多的关注。)加法模型将弱分类器进行线性组合。

代表:AdaboostGBDTXGBoostLightGBMBoosting

03PARTTHREEAdaboost

AdaboostPART01思路PART02算法流程PART03算法原理

数学表达:加法模型Adaboost由的分类误差率决定

Adaboost一、思路:在每一轮中,分别记录好那些被当前弱分类器正确分类与错误分类的样本,在下一轮训练时,提高错误分类样本的权值,同时降低正确分类样本的权值,用以训练新的弱分类器。(这样一来,那些没有得到正确分类的数据,由于器权值加大,会受到后一轮的弱分类器的更大关注。)加权多数表决:加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用

二、算法流程:假设给定一个二分类的训练数据集其中,每个样本点由实例与标记组成。实例,标记,是实例空间,是标记集合。定义基本分类器(弱分类器)=1-1Adaboost

循环M次(每一次训练一个G分类器以及它的权重,我们有M个G分类器,所以要循环M次)初始化/更新当前的训练数据的权值分布训练当前基分类器计算当前基分类器的权值将更新到加法模型中判断是否满足循环退出条件Adaboost

具体地,初始化/更新当前的训练数据的权值分布如果初始化如果更新其中,这里,是规范化因子它使成为一个概率分布。Adaboost

解释由此可知,被基本分类器误分类样本的权值得以扩大,从而被正确分类的样本的权值却得以缩小。Adaboost

训练当前基分类器使用具有权重分布的训练数据集学习,得到基分类器Adaboost

计算当前基分类器的权值计算当前在训练数据集上的分类误差率根据分类误差率,计算基分类器的权重系数Adaboost

一定满足:Adaboostx2.5,-1;x2.5时y取1x0123y1111Gm(x)-1-1-11错误错误错误正确1,x2.5;-1,x2.5x0123y1111-Gm(x)111-1正确正确正确错误条件反转即可改变误差率使其小于0.5

将更新到加法模型中判断是否满足循环退出条件:分类器个数是否达到预期设定值总分类器误差率是否小于设定的精度得到最终分类器Adaboost

优缺点:优点:可以处理连续值和离散值不会出现过拟合现象模型的解释性强,结构简单。缺点:对异常样本敏感,异常样本在迭代的

您可能关注的文档

文档评论(0)

151****9459 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档