- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第7章集成学习与实现集成学习的概念Bagging算法随机森林算法Boosting算法
集成学习第7章在机器学习中,利用各模型之间的差异性来构建比采用单个模型更好的模型,其目标是为了提出一个在性能上具有一定竞争力并且还比较稳定的预测算法,但是在现实中往往不会如愿,反而会得到多个各具特色的分类器,为了集成这些分类器的优点,集成算法被提出。集成算法是一种通过构建和结合多个学习器以完成学习任务的算法,当前主流的集成算法分为两种:第一种为Bagging算法,该算法训练多个分类器,这些分类器之间相互独立,不存在强依赖关系,在训练过后,利用集成策略将各个分类器最终结果进行集成,以得到最终的结果;第二种为Boosting算法,该算法是一种将弱学习器提升为强学习器的算法,需要利用上一个分类器的结果对下一个分类器性能做调整训练,以达到增强学习器的目的。
集成学习第7章集成学习(ensemblelearning)也称多分类器系统或基于委员会的学习,它是将多个基础学习器(也称个体学习器)通过结合策略进行结合,形成一个性能优良的集成学习器来完成学习任务的一种方法,如图1所示。在集成学习中,个体学习器一般由一个现有的学习算法(如C4.5决策树算法)从训练数据中训练得到。图1集成学习的一般结构1.集成学习的原理分析7.1.1集成学习的概念
集成学习第7章在训练集成学习模型时:如果所有个体学习器都是同类模型(如集成学习模型中每个个体学习器都是决策树模型),则由这些同类个体学习器相结合产生的集成学习模型称为同质集成模型,同质集成模型中的个体学习器亦称“基学习器”,相应的学习算法称为“基学习算法”如果个体学习器不是同类模型(如集成学习模型中同时包含决策树分类模型和k近邻分类模型),则由这些不同类别的个体学习器相结合产生的集成学习模型称为异质集成模型,异质集成模型中的个体学习器常称为“组件学习器”。1.集成学习的原理分析
5表7-4集成学习模型性能不变学习器测试样本1测试样本2测试样本3模型预测准确率个体学习器1√√×66.6%个体学习器2√√×66.6%个体学习器3√√×66.6%集成学习器√√×66.6%2.个体学习器对集成学习模型性能的影响表7-3集成学习模型性能降低学习器测试样本1测试样本2测试样本3模型预测准确率个体学习器1√××33.3%个体学习器2×√×33.3%个体学习器3××√33.3%集成学习器×××0表7-2集成学习模型性能提升学习器测试样本1测试样本2测试样本3模型预测准确率个体学习器1√√×66.6%个体学习器2×√√66.6%个体学习器3√×√66.6%集成学习器√√√100%集成学习是通过一定的结合策略将多个个体学习器进行结合得到的模型。模型的性能会受到个体学习器的预测准确率、多样性和数量等因素的影响。(1)个体学习器的预测准确率与多样性对集成学习模型性能的影响。例如,在二分类任务中,如果3个不同的个体学习器在3个测试样本中的预测准确率都是66.6%,则集成学习模型的预测准确率可能能够达到100%,即集成学习模型的性能有所提升,如表7-2所示(√表示样本预测正确,×表示样本预测错误);如果3个不同的个体学习器在3个测试样本中的预测准确率都是33.3%,则集成学习模型的预测准确率可能为0,即集成学习模型的性能有所降低,如表7-3所示;如果3个个体学习器是3个相同的学习器,则集成学习模型的性能不会发生变化,如表7-4所示。集成学习第7章
集成学习第7章可见,要获得好的集成学习模型,个体学习器应“好而不同”,即个体学习器要有一定的预测准确率(一般个体学习器的预测准确率应大于60%),并且各个个体学习器之间要有差异(多样性)。2.个体学习器对集成学习模型性能的影响(1)个体学习器的预测准确率与多样性对集成学习模型性能的影响。
集成学习第7章例如,在二分类任务中,假设个体学习器的预测误差率相互独立,则集成学习模型的预测误差率为其中,T表示个体学习器的数量,表示个体学习器的预测误差率。可见,随着集成学习模型中个体学习器数目T的增大,集成学习模型的预测误差率将呈指数级下降,最终趋向于零。然而,这个结论是基于假设“个体学习器的误差相互独立”得到的。在现实任务中,个体学习器是为解决同一问题而训练出来的,显然它们不可能相互独立。事实上,个体学习器的“准确性”和“多样性”本身就存在冲突,一般准确性较高之后,要增加多样性就必须牺牲准确性。所以说,如何训练出“好而不同”的个体学习器,是集成学习研究的核心内容。2.个体学习器对集成学习模型性能的影响(2)个体学习器的数量对集成学习模型性能的影响。
集成学习第7章、3集成学习的结合策略当模型的预测结果是数值型数据时,最常用的结合策
文档评论(0)