集成学习概览与实践：从基础到应用全面.pdfVIP

集成学习概览与实践：从基础到应用全面.pdf

集成学习

面对一个机器学习问题，通常有两种策略。一种是研发人员尝试各种模型，选择其中表

现模型做重点调参优化。这种策略类似于奥运会比赛，通过强强竞争来选拔最优的运

动员，并逐步提高成绩。另一种重要的策略是集各家之长，如同贤明的君主广泛地听取众多

谋臣的建议，然后综合考虑，得到最终决策。后一种策略的，是将多个分类器的结果统

一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的

分类器称为基分类器。

俗语说“三个臭皮匠，顶一个诸葛亮”，基分类器就类似于“臭皮匠”，而之前介绍的很多复杂

模型可以认为是“诸葛亮”。即使单一一个“臭皮匠”的决策能力不强，我们有效地把多个“臭

皮匠”组织结合起来，其决策能力很有可能超过“诸葛亮”。而

如何将这些基分类器集成起来，就是本章要讨论的重点。

集成学习不仅在学界的研究热度不减，在业界和众多机器学习竞赛中也有非常成功的应用。例

如在Kaggle竞赛中所向披靡的XGBoost，就是成功应用集成学习思想的一个例子。

1问题集成学习分哪几种？他们有何异同？

难度：★☆☆☆☆

分析与解答

■Boosting（串行）

Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。

它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前

更多 >