Python大数据分析与挖掘实战课件 7-4.boosting算法+.7-5 AdaBoost算法.pptxVIP

下载本文档

0
0
约2.63千字
约 8页
2025-06-18 发布于山东
举报
版权申诉

Python大数据分析与挖掘实战课件 7-4.boosting算法+.7-5 AdaBoost算法.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第7章集成学习与实现集成学习的概念Bagging算法随机森林算法Boosting算法

7.4Boosting算法的基本原理2Boosting是一族可将弱学习器提升为强学习器的算法，是串行式集成学习方法中最著名的代表。Boosting家族中各个算法的工作原理类似，即先从初始训练集中训练出一个个体学习器，并对这个个体学习器预测错误的样本进行关注，然后调整训练样本的分布，基于调整后的样本训练下一个个体学习器，如此重复直到个体学习器的数量达到事先指定的值T，再将这T个个体学习器进行加权结合，得到最终模型。

3Boosting家族中比较有代表性的算法是AdaBoost，AdaBoost算法从训练样本出发，通过不断调整训练样本的权重或概率分布来训练模型，其基本流程如下。7.4Boosting算法的基本原理（1）将初始训练集D中每个样本的权重都设置为一个相同的值（N为初始训练集的样本数量），使用初始训练集训练一个个体学习器。（2）使用训练完成的个体学习器对训练数据进行预测，然后增加预测错误的样本的权重，减少预测正确的样本的权重，获得带权重的训练集。（3）使用上一步迭代完成的训练集重新训练模型，得到下一个个体学习器。（4）重复步骤（2）和步骤（3），直到个体学习器的数量达到事先指定的值T，然后将这T个个体学习器进行加权结合，得到最终模型。

4在AdaBoost算法中，训练样本的权重会被逐个修改。随着迭代次数的增加，难以预测正确的样本对模型的影响越来越大，弱学习器更加关注这些样本，其预测准确率就会逐渐提升，最终将弱学习器提升为强学习器。7.5AdaBoost算法

5Sklearn的ensemble模块提供了AdaBoostClassifier类和AdaBoostRegressor类，分别用于实现AdBboost分类和回归算法。在Sklearn中，可通过下面语句导入AdaBoost算法模块。7.5AdaBoost算法fromsklearn.ensembleimportAdaBoostClassifier #导入AdaBoost分类模块fromsklearn.ensembleimportAdaBoostRegressor #导入AdaBoost回归模块

6AdaBoostClassifier类和AdaBoostRegressor类都有如下几个参数。（1）参数base_estimator用于指定个体学习器的基础算法，常用的算法是CART决策树或神经网络（神经网络算法将在后面项目中介绍）。（2）参数n_estimators用于设置要集成的个体学习器的数量，其默认值为50。一般来说n_estimators值设置得较小，模型容易出现欠拟合现象，n_estimators值设置得较大，模型容易出现过拟合现象。在实际调参过程中，该参数经常与参数learning_rate一起调节。（3）参数learning_rate为弱学习器的权重缩减系数，其取值范围为0～1。对于同样的训练集拟合效果，较小的learning_rate值意味着需要更多数量的弱学习器。7.5AdaBoost算法

7【例8-3】使用AdaBoost算法对Sklearn自带的鸢尾花数据集进行分类。AdaBoost算法的参数n_estimators往往要与参数learning_rate一起调节，可使用网格搜索法寻找参数的最优值，然后输出最优参数值与对应模型的预测准确率。【程序分析】7.5AdaBoost算法

8程序运行结果如图7所示。可见，网格搜索法找到的最优参数值为{learning_rate:0.005,n_estimators:40}，这组参数值对应的模型给出了较高的预测准确率。【运行结果】7.5AdaBoost算法图7最优参数值与对应模型的预测准确率【参考代码】fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearn.metricsimportaccuracy_scorefromsklearn.model_selectionimportGridSearchCVfromsklearn.model_selectionimportStratifiedShuffleSplit #拆分数据集x,y=load_iris().data,load_iris().target