网站大量收购独家精品文档,联系QQ:2885784924

机器学习原理与应用课件 第13章 集成学习.pptxVIP

机器学习原理与应用课件 第13章 集成学习.pptx

  1. 1、本文档共131页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第13章 集成学习1

学习目标理解集成学习的基本原理。掌握利用Scikit-learn、mlxtend等库实现集成学习的基本方法。122

目录页313.1基本原理13.2应用实例集成学习

集成学习(EnsembleLearning)的核心思想在于“博采众长”,其通过融合多个同质或异质机器学习器求解分类或回归问题,可有效克服单个分类或回归器存在的易出现过拟合、精度较低等缺点。(类似于“三个臭皮匠顶个诸葛亮”的思想)。4

集成学习的理论基础来自于Kearns和Valiant提出的基于PAC(Probablyapproximatelycorrect)的可学习性理论,PAC定义了学习算法的强弱:弱学习算法:识别错误率小于1/2(即准确率仅比随机猜测略高的算法)。强学习算法:识别准确率很高并能在多项式时间内可完成的算法。513.1基本原理

如图所示,集成学习首先根据已知训练数据产生多个个体学习器(通常为弱学习器),然后通过特定的集成策略将个体学习器进行融合以生成强学习器;其中,如何生成个体学习器与如何选择集成策略是集成学习首要解决的核心问题。613.1基本原理

举个例子,假设你想考研而不知道报哪个学校,你有10个在不同高校读研的学长,你想得到他们的帮助,你可以这样做:?

(1)选出你最信任的那个朋友,听从他的建议(普通的学习算法,选择验证效果最好的)。?

(2)让所有朋友给你建议,通过某个加权计算或者投票,计算出最终的答案(集成学习,训练多个基学习器,用某种结合策略得到最终学习器)。713.1基本原理

(1)个体学习器通常是是一个已训练好的机器学习模型(例如决策树、支持向量机等),若集成后强学习器只包含同种类型的个体学习器(如仅包含决策树),则称为“同质集成”。同质集成中的个体学习器也称为“基学习器”,相应的学习算法称为“基学习算法”。有同质就有异质,若集成包含不同类型的个体学习器,例如同时包含决策树和神经网络,那么这时个体学习器一般不称为基学习器,而称作“组件学习器”。813.1.1基本概念

弱学习器:常指泛化性能略优于随机猜测的学习器,例如在二分类问题上精度略高于50%的分类器。但需要注意的是,虽然理论上来说使用弱学习器集成足以获得好的性能,但在实际中出于种种考虑,例如希望使用较少的个体学习器,或是重用关于常见学习器的一些经验等,人们往往会使用比较强的学习器。913.1.1基本概念

(2)集成策略如果把好坏不一的结果混合在一起,则混合后的结果很可能比最坏的单个结果要好一些,但又比最好的单个结果要坏一些,这种情况下不如直接取单个最好的结果,而不用混合。但是集成学习还是对多个学习器进行了结合,那它怎么保证整体的效果会比最好的那个单一学习器的效果更好呢?1013.1.1基本概念

在一个二分类任务中,三个分类器在三个测试样本上的表现如下图所示。假设集成学习的结果通过三个个体学习器投票的方式产生,即“少数服从多数”,那么当三个个体学习器分别对三个测试例有不同的判别优势时,集成的效果也会不一样。1113.1.1基本概念

在情况[1]中,每个个体学习器均只有66.6%的精度但针对不同测试集的表现不一,集成后学习器的精度却达到了100%;在情况[2]中,每个个体学习器也均只有66.6%的精度但针对不同测试集的表现相同,集成后学习器的精度没有任何提高;在情况[3]中,每个个体学习器的精度均只有33.3%但针对不同测试集的表现不一,集成后学习器的精度反而更低。1213.1.1基本概念

13此例表明:要获得好的集成,个体学习器应“好而不同”,即:个体学习器要有一定的准确性(精度通常大于0.5),即学习器性能不能太差。。个体学习器要有“多样性”,即学习器间具有差异。13.1.1基本概念

13.1.2基础方法14在集成学习中,基础集成方法侧重于直接将不同个体学习器的输出结果进行汇总并采用特定的方式产生更可靠的结果,其间并不关注个体学习器之间的关联性。基础集成方法主要包括投票法与平均法两种。(1)投票法投票法分为硬投票与软投票两种,其中,硬投票是指个体学习器的预测结果为样本所属类别的标记,软投票是指个体学习器的预测结果为样本所属类别的概率。根据投票方式的不同,投票法又分为绝对多数投票、相对多数投票与加权投票三种。

13.1.2基础方法①绝对多数投票若超过半数的个体学习器预测类别标记相同,则将该类别标记作为集成后学习器的预测结果,否则拒绝预测。②相对多数投票在所有个体学习器预测结果中,若某类别标记的票数最多,则将其作为集成后学习器的预测结果;若同时有多个类别标记获得最高票数,则从中随机选取一个类别标记作为集成后学习器的预测结果。③加权投票根据不同个体分类器?预先设置的权重将相应的结果(通常为概率值)进行加权与累加

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档