主讲老师:李晓华《机器学习-第八章集成学习》
目录1、集成学习方法概述2、AdaBoost和GBDT算法3、XGBoost4、LightGBM
1、集成学习方法概述
集成学习Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:模型n……模型1模型2预测n……预测1预测2训练数据最终预测结果测试数据
Boosting训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。模型n最终预测结果模型2预测n……预测1预测2转化模型1模型3转化转化训练数据测试数据集成学习
随机森林RandomForest(随机森林)用随机的方式建立一个森林。随机森林算法由很多决策树组成,每一棵决策树之间没有关联。建立完森林后,当有新样本进入时,每棵决策树都会分别进行判断,然后基于投票法给出分类结果。优点在数据集上表现良好,相对于其他算法有较大的优势易于并行化,在大数据集上有很大的优势;能够处理高维度数据,不用做特征选择。
随机森林RandomForest(随机森林)是Bagging的扩展变体,它在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括随机森林包括四
原创力文档

文档评论(0)