人工智能创新实验教程 课件 第9章 随机森林算法.pptx

人工智能创新实验教程 课件 第9章 随机森林算法.pptx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

宁夏大学第九章随机森林算法

随机森林算法www.islide.cc2目录

CONTENT01引言02算法概述03实验数据04算法实战05本章小结

01引言

引言通过前面章节的学习,了解到决策树算法可以通过根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。但是俗话说得好,三个臭皮匠顶过诸葛亮,一棵树的生成肯定还是不如多棵树。随机森林就是希望构建多个臭皮匠,使最终的分类效果能够超过单个决策树的一种算法。随机森林就是通过集成学习的思想集成多棵树的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(EnsembleLearning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。其中,“森林”可以比喻为成百上千棵的树,其实这就是随机森林的主要思想——集成思想的体现。通常,随机森林算法可以应用在离散值的分类、连续值的回归、无监督学习聚类以及异常点检测等方面。

引言第四章所讲的决策树,虽然有剪枝等处理方法,但其泛化能力较弱,也极易受异常值的影响。而本章所讲的随机森林算法,可以一定程度上降低过拟合的可能性,降低异常值带来的影响,使分类准确性更高。本章首先学习集成学习及其两大流派,再围绕集成思想的具体实现——随机森林算法,介绍其算法流程,分析其优缺点;其次,依托汽车评价数据集,对数据集进行数据准备、数据分析、数据处理操作;最后,构建随机森林模型,并对模型参数和特征数量进行修改,分析各因素对模型准确率的影响。

02算法概述

1、集成学习概述集成学习(Ensemblelearning)就是将若干个弱分类器通过一定的**策略组合**之后产生一个强分类器。弱分类器(WeakClassififier)指的就是那些分类准确率只比随机猜测略好一点的分类器,而强分类器(StrongClassififier)的分类准确率会高很多。这里的强和弱是相对的。目前集成学习算法的流派主要有两种:(1)bagging、(2)boosting

1.1bagging自举汇聚法(bootstrapaggregating),也称为bagging方法,是一种根据均匀概率分布从数据集中重复抽样(有放回的)的技术。这种方法将训练集分成m个新的训练集,然后在每个新训练集上构建一个模型,各自不相干,最后预测时将这个m个模型的结果进行整合,得到最终结果。整合方式分为两种,分类问题用投票表决(最多票的类别即为预测类别),回归用均值。值得注意的是,由于新数据集中的每个样本都是从原始数据集中有放回的随机抽样出来的,使得新数据集中存在重复的值,而原始数据集的某些值就不会出现在新集合当中。

1.1baggingbagging方法的流程,如下图所示:从图中可以看出,bagging方法根据有放回的随机抽样构造n个数据集,将某个学习算法分别作用于每个数据集就得到了n个弱分类器,然后根据每个弱分类器返回的结果,采用一定的组合策略得到最后需要的强分类器。?bagging方法的代表算法是**随机森林**,准确的来说,随机森林是bagging的一个特化进阶版。

1.2boostingBoosting是集成学习的重要分支,其核心思想就是通过弱分类器的不断集成,形成一个强分类器。具体地,每轮迭代产生的新分类器都是重点改进之前轮没有处理好的地方,这样新产生的分类器与之前分类器的集成就能够产生一个更强的分类器,重复这一过程,直到达到任务目标。与上述bagging相比,两者的区别如下:(1)Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。(2)Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boosting的各轮训练集的选择与前面各轮的学习结果有关。(3)Bagging的各个预测函数没有权重,而Boosting是有权重的。(4)Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。

2.1随机森林算法流程为了描述方便,我们设训练集为T,有N个样本,即T={t1,t2,…,tN},设特征集为F,有M维特征,即F={f1,f2,…,fM},类别集合为C,有L种类别,即C={c1,c2,…,cL},测试集为D,有λ个测试样本,即D={d1,d2,…,dλ}。随机森林的算法流程如下所示:(1)从容量为N的训练集T中,采用自助抽样法(bootstrap),即有放回地抽取N个样本,作为一个训练子集Tk。子数据集的数据量是

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档