数据分析集成学习使用Bagging方法进行二分类上02课件讲解.pptxVIP

下载本文档

0
0
约1.34千字
约 8页
2026-02-03 发布于陕西
举报

数据分析集成学习使用Bagging方法进行二分类上02课件讲解.pptx

数据分析-集成学习-使用Bagging方法进行二分类（上）

任务描述任务描述：通过集成学习中的Bagging方法来进行二分类。主要内容：1.集成学习的简介2.集成学习算法的基学习器3.集成学习算法的独立性

集成学习的简介集成学习是一种机器学习策略，它结合了多个学习算法，以提高预测性能。这种方法通常可以显著提高稳定性和准确性，特别是当单一模型难以处理复杂数据集时。集成学习案例图：

集成学习算法的基学习器基学习器可以是任何一种机器学习算法，包括但不限于决策树、感知器、线性回归模型、支持向量机、神经网络等。选择何种模型作为基学习器主要取决于问题的具体性质。基学习器是构成集成学习的单个模型或预测器，其在集成中按特定策略进行组合，训练得到的模型共同参与最终的决策。

（1）BaggingBagging是并行式集成学习技术的一种。在Bagging中，可得到的每个子集样本是通过从原始数据集中进行有放回的随机抽样得到的。随机森林（RandomForest）就是这个方法的一个经典案例。（2）BoostingBoosting是一种顺序型的集成方法，在Boosting中，每个新的模型都在尝试纠正其前一个模型的错误。常见的Boosting算法有Adaboost、GradientBoosting、XGBoost等。（5）BagofLittleBootstraps(BLB)BLB是一种用于大数据集的Bagging集成学习算法。常见的集成算法（3）Stacking-inf表示负无穷大，和inf类似，在NumPy中也属于浮点类型数据，并可以使用numpy.isneginf()函数进行判断。（4）Voting非法数值指的是那些无法被表示为浮点数的值，例如“0/0”所得的“NaN”就是一个非法数值。在NumPy中，可以使用numpy.isfinite()函数判断一个数值是否为有限值或非法数值。

集成学习算法的投票法硬投票（MajorityVoting）：硬投票是指每个模型对预测样本的分类结果进行投票，选择得票数最多的分类作为最终结果。比如，如果在一个二分类问题中，有三个模型，两个模型预测结果为类别A，一个模型预测结果为类别B，那么通过硬投票的方式，最终的预测结果就是类别A。软投票（WeightedVoting）：软投票与硬投票有些不同，它是根据每个分类器预测样本属于各个标签的概率，对概率值进行加权求和，最后选择具有最高概率的类别作为最终预测结果。例如，模型A预测样本为类别1的概率为70%，模型B预测样本为类别1的概率为80%，模型C预测样本为类别1的概率为60%，那么总体预测样本为类别1的概率为（70%+80%+60%）/3=70%，因此最终预测结果为类别1。

集成学习算法的BaggingBagging（BootstrapAggregating）是一种在统计学习中用于提高稳定性和准确性的重要技术。它通过从原始数据集中进行多次采样，每次都建立一个基学习器，在所有学习器完成之后，Bagging算法会对这些学习器的结果进行综合，通常采用简单的投票法。这种方法可以有效地减少过拟合，提高模型的稳定性和准确性。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据分析集成学习使用Bagging方法进行二分类上02课件讲解.pptxVIP