- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
随机森林算法介绍及 R语言实现
随机森林算法介绍
算法介绍:
简单的说,随机森林就是用随机的方式建立一个森林, 森林里面有很多的决策树,
并且每棵树之间是没有关联的。 得到一个森林后, 当有一个新的样本输入, 森林
中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后
比较一下被判定哪一类最多,就预测该样本为哪一类。
随机森林算法有两个主要环节:决策树的生长和投票过程。
决策树生长步骤:
1. 从容量为 N 的原始训练样本数据中采取放回抽样方式 ( 即 bootstrap 取样 )
随机抽取自助样本集,重复 k (树的数目为 k)次形成一个新的训练集 N,
以此生成一棵分类树;
2. 每个自助样本集生长为单棵分类树,该自助样本集是单棵分类树的全部训
练数据。设有 M个输入特征,则在树的每个节点处从 M个特征中随机挑选
m(m M)个特征,按照节点不纯度最小的原则从这 m个特征中选出一个特
征进行分枝生长,然后再分别递归调用上述过程构造各个分枝,直到这棵
树能准确地分类训练集或所有属性都已被使用过。在整个森林的生长过程
中 m将保持恒定;
3. 分类树为了达到低偏差和高差异而要充分生长,使每个节点的不纯度达到
最小,不进行通常的剪枝操作。
投票过程:
随机森林采用 Bagging 方法生成多个决策树分类器。
基本思想:
1. 给定一个弱学习算法和一个训练集,单个弱学习算法准确率不高,可以视
为一个窄领域专家;
2. 将该学习算法使用多次,得出预测函数序列,进行投票,将多个窄领域专
家评估结果汇总,最后结果准确率将大幅提升。
随机森林的优点:
可以处理大量的输入变量 ;
对于很多种资料,可以产生高准确度的分类器 ;
可以在决定类别时,评估变量的重要性 ;
在建造森林时,可以在内部对于一般化后的误差产生不偏差的估计 ;
教育资料
.
包含一个好方法可以估计遗失的资料, 并且,如果有很大一部分的资料遗失,
仍可以维持准确度 ;
提供一个实验方法,可以去侦测 variable interactions;
对于不平衡的分类资料集来说,可以平衡误差 ;
计算各例中的亲近度,对于数据挖掘、侦测偏离者( outlier )和将资料视
觉化非常有用 ;
使用上述。 可被延伸应用在未标记的资料上, 这类资料通常是使用非监督式
聚类。也可侦测偏离者和观看资料 ;
学习过程很快速。
缺点
随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 ;
对于有不同级别的属性的数据, 级别划分较多的属性会对随机森林产生更大
的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
R语言实现
寻找最优参数 mtry ,即指定节点中用于二叉树的最佳变量个数
library( randomForest )
n-length(names(train_data)) #计算数据集中自变量个数,等同 n=ncol(train_dat
a)
rate= 1 #设置
文档评论(0)