Boosting算法简介.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Boosting算法简介

/meijia_tts/article/details/7180474Boosting算法简介 分类: /meijia_tts/article/category/847743机器学习 2012-01-06 10:48 1044人阅读 /meijia_tts/article/details/7180474评论(1) javascript:void(0);收藏 /meijia_tts/article/details/7180474举报 /tag/details.html?tag=%e7%ae%97%e6%b3%95算法/tag/details.html?tag=%e6%a1%86%e6%9e%b6框架/tag/details.html?tag=%e4%bb%bb%e5%8a%a1任务/tag/details.html?tag=%e6%b5%8b%e8%af%95测试/tag/details.html?tag=cc/tag/details.html?tag=%e7%bd%91%e7%bb%9c网络一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i)重复地从一个样本集合D中采样n个样本 ii)针对每次采样的子样本集,进行统计学习,获得假设Hi iii)将若干个假设进行组合,形成最终的假设Hfinal iv)将最终的假设用于具体的分类任务 2)bagging方法的主要过程 主要思路: i)训练分类器 从整体样本集合中,抽样n*??N个样本 针对抽样的集合训练分类器Ci ii)分类器进行投票,最终的结果是分类器投票的优胜结果 但是,上述这两种方法,都只是将分类器进行简单的组合,实际上,并没有发挥出分类器组合的威力来。直到1989年,Yoav Freund与 Robert Schapire提出了一种可行的将弱分类器组合为强分类器的方法。并由此而获得了2003年的哥德尔奖(Godel price)。 Schapire还提出了一种早期的boosting算法,其主要过程如下: i)从样本整体集合D中,不放回的随机抽样n1??n?个样本,得到集合?D1 训练弱分类器C1 ii)从样本整体集合D中,抽取?n2??n?个样本,其中合并进一半被?C1?分类错误的样本。得到样本集合?D2 训练弱分类器C2 iii)抽取D样本集合中,C1?和?C2?分类不一致样本,组成D3 训练弱分类器C3 iv)用三个分类器做投票,得到最后分类结果 到了1995年,Freund and schapire提出了现在的adaboost算法,其主要框架可以描述为: i)循环迭代多次 更新样本分布 寻找当前分布下的最优弱分类器 计算弱分类器误差率 ii)聚合多次训练的弱分类器 在下图中可以看到完整的adaboost算法:图1.1? adaboost算法过程 现在,boost算法有了很大的发展,出现了很多的其他boost算法,例如:logitboost算法,gentleboost算法等等。在这次报告中,我们将着重介绍adaboost算法的过程和特性。二、Adaboost算法及分析 从图1.1中,我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法,可以总结如下: 1)每次迭代改变的是样本的分布,而不是重复采样(re weight) 2)样本分布的改变取决于样本是否被正确分类 总是分类正确的样本权值低 总是分类错误的样本权值高(通常是边界附近的样本) 3)最终的结果是弱分类器的加权组合 权值表示该弱分类器的性能 简单来说,Adaboost有很多优点: 1)adaboost是一种有很高精度的分类器 2)可以使用各种方法构建子分类器,adaboost算法提供的是框架 3)当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单 4)简单,不用做特征筛选 5)不用担心overfitting! 总之:adaboost是简单,有效。 下面我们举一个简单的例子来看看adaboost的实现过程: 图中,“+”和“-”分别表示两种类别,在这个过程中,我们使用水平或者垂直的直线作为分类器,来进行分类。 第一步: 根据分类的正确率,得到一个新的样本分布D2,一个子分类器h1 其中划圈的样本表示被分错的。在右边的途中,比较大的“+”表示对该样本做了加权。 第二步: 根据分类的正确率,得到一个新的样本分布D3,一个子分类器h2 第三步: 得

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档