随机森林算法介绍及R语言实现.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 随机森林算法介绍及 R语言实现 随机森林算法介绍 算法介绍: 简单的说,随机森林就是用随机的方式建立一个森林, 森林里面有很多的决策树, 并且每棵树之间是没有关联的。 得到一个森林后, 当有一个新的样本输入, 森林 中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后 比较一下被判定哪一类最多,就预测该样本为哪一类。 随机森林算法有两个主要环节:决策树的生长和投票过程。 决策树生长步骤: 1. 从容量为 N 的原始训练样本数据中采取放回抽样方式 ( 即 bootstrap 取样 ) 随机抽取自助样本集,重复 k (树的数目为 k)次形成一个新的训练集 N, 以此生成一棵分类树; 2. 每个自助样本集生长为单棵分类树,该自助样本集是单棵分类树的全部训 练数据。设有 M个输入特征,则在树的每个节点处从 M个特征中随机挑选 m(m M)个特征,按照节点不纯度最小的原则从这 m个特征中选出一个特 征进行分枝生长,然后再分别递归调用上述过程构造各个分枝,直到这棵 树能准确地分类训练集或所有属性都已被使用过。在整个森林的生长过程 中 m将保持恒定; 3. 分类树为了达到低偏差和高差异而要充分生长,使每个节点的不纯度达到 最小,不进行通常的剪枝操作。 投票过程: 随机森林采用 Bagging 方法生成多个决策树分类器。 基本思想: 1. 给定一个弱学习算法和一个训练集,单个弱学习算法准确率不高,可以视 为一个窄领域专家; 2. 将该学习算法使用多次,得出预测函数序列,进行投票,将多个窄领域专 家评估结果汇总,最后结果准确率将大幅提升。 随机森林的优点: 可以处理大量的输入变量 ; 对于很多种资料,可以产生高准确度的分类器 ; 可以在决定类别时,评估变量的重要性 ; 在建造森林时,可以在内部对于一般化后的误差产生不偏差的估计 ; 教育资料 . 包含一个好方法可以估计遗失的资料, 并且,如果有很大一部分的资料遗失, 仍可以维持准确度 ; 提供一个实验方法,可以去侦测 variable interactions; 对于不平衡的分类资料集来说,可以平衡误差 ; 计算各例中的亲近度,对于数据挖掘、侦测偏离者( outlier )和将资料视 觉化非常有用 ; 使用上述。 可被延伸应用在未标记的资料上, 这类资料通常是使用非监督式 聚类。也可侦测偏离者和观看资料 ; 学习过程很快速。 缺点 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 ; 对于有不同级别的属性的数据, 级别划分较多的属性会对随机森林产生更大 的影响,所以随机森林在这种数据上产出的属性权值是不可信的。 R语言实现 寻找最优参数 mtry ,即指定节点中用于二叉树的最佳变量个数 library( randomForest ) n-length(names(train_data)) #计算数据集中自变量个数,等同 n=ncol(train_dat a) rate= 1 #设置

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档