Boosting算法简介.docxVIP

下载本文档

12
0
约5.77千字
约 11页
2017-02-09 发布于重庆
举报
版权申诉

Boosting算法简介.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Boosting算法简介

/meijia_tts/article/details/7180474Boosting算法简介分类： /meijia_tts/article/category/847743机器学习 2012-01-06 10:48 1044人阅读 /meijia_tts/article/details/7180474评论(1) javascript:void(0);收藏 /meijia_tts/article/details/7180474举报 /tag/details.html?tag=%e7%ae%97%e6%b3%95算法/tag/details.html?tag=%e6%a1%86%e6%9e%b6框架/tag/details.html?tag=%e4%bb%bb%e5%8a%a1任务/tag/details.html?tag=%e6%b5%8b%e8%af%95测试/tag/details.html?tag=cc/tag/details.html?tag=%e7%bd%91%e7%bb%9c网络一、Boosting算法的发展历史　Boosting算法是一种把若干个分类器整合为一个分类器的方法，在boosting算法产生之前，还出现过两种比较重要的将多个分类器整合为一个分类器的方法，即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。　1）bootstrapping方法的主要过程　主要步骤：　i)重复地从一个样本集合D中采样n个样本　ii)针对每次采样的子样本集，进行统计学习，获得假设Hi　iii)将若干个假设进行组合，形成最终的假设Hfinal　iv)将最终的假设用于具体的分类任务　2）bagging方法的主要过程　主要思路：　i)训练分类器　从整体样本集合中，抽样n*??N个样本针对抽样的集合训练分类器Ci　ii)分类器进行投票，最终的结果是分类器投票的优胜结果　但是，上述这两种方法，都只是将分类器进行简单的组合，实际上，并没有发挥出分类器组合的威力来。直到1989年，Yoav Freund与 Robert Schapire提出了一种可行的将弱分类器组合为强分类器的方法。并由此而获得了2003年的哥德尔奖（Godel price）。　Schapire还提出了一种早期的boosting算法，其主要过程如下：　i)从样本整体集合D中，不放回的随机抽样n1??n?个样本，得到集合?D1　训练弱分类器C1　ii)从样本整体集合D中，抽取?n2??n?个样本，其中合并进一半被?C1?分类错误的样本。得到样本集合?D2　训练弱分类器C2　iii)抽取D样本集合中，C1?和?C2?分类不一致样本，组成D3　训练弱分类器C3　iv)用三个分类器做投票，得到最后分类结果　到了1995年，Freund and schapire提出了现在的adaboost算法，其主要框架可以描述为：　i)循环迭代多次　更新样本分布　寻找当前分布下的最优弱分类器　计算弱分类器误差率　ii)聚合多次训练的弱分类器　在下图中可以看到完整的adaboost算法：图1.1? adaboost算法过程　现在，boost算法有了很大的发展，出现了很多的其他boost算法，例如：logitboost算法，gentleboost算法等等。在这次报告中，我们将着重介绍adaboost算法的过程和特性。二、Adaboost算法及分析　从图1.1中，我们可以看到adaboost的一个详细的算法过程。Adaboost是一种比较有特点的算法，可以总结如下：　1）每次迭代改变的是样本的分布，而不是重复采样（re weight)　2）样本分布的改变取决于样本是否被正确分类　总是分类正确的样本权值低　总是分类错误的样本权值高（通常是边界附近的样本）　3）最终的结果是弱分类器的加权组合　权值表示该弱分类器的性能　简单来说，Adaboost有很多优点:　1)adaboost是一种有很高精度的分类器　2)可以使用各种方法构建子分类器，adaboost算法提供的是框架　3)当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单　4)简单，不用做特征筛选　5)不用担心overfitting！　总之：adaboost是简单，有效。　下面我们举一个简单的例子来看看adaboost的实现过程：　图中，“+”和“-”分别表示两种类别，在这个过程中，我们使用水平或者垂直的直线作为分类器，来进行分类。　第一步：　根据分类的正确率，得到一个新的样本分布D2，一个子分类器h1　其中划圈的样本表示被分错的。在右边的途中，比较大的“+”表示对该样本做了加权。　第二步：　根据分类的正确率，得到一个新的样本分布D3，一个子分类器h2　第三步：　得