随机森林算法介绍及R语言实现.pdfVIP

下载本文档

13
0
约7.66千字
约 7页
2020-05-07 发布于湖北
举报
版权申诉

随机森林算法介绍及R语言实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

. 随机森林算法介绍及 R语言实现随机森林算法介绍算法介绍：简单的说，随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树，并且每棵树之间是没有关联的。得到一个森林后，当有一个新的样本输入，森林中的每一棵决策树会分别进行一下判断，进行类别归类（针对分类算法），最后比较一下被判定哪一类最多，就预测该样本为哪一类。随机森林算法有两个主要环节：决策树的生长和投票过程。决策树生长步骤： 1. 从容量为 N 的原始训练样本数据中采取放回抽样方式 ( 即 bootstrap 取样 ) 随机抽取自助样本集，重复 k （树的数目为 k）次形成一个新的训练集 N，以此生成一棵分类树； 2. 每个自助样本集生长为单棵分类树，该自助样本集是单棵分类树的全部训练数据。设有 M个输入特征，则在树的每个节点处从 M个特征中随机挑选 m(m M)个特征，按照节点不纯度最小的原则从这 m个特征中选出一个特征进行分枝生长，然后再分别递归调用上述过程构造各个分枝，直到这棵树能准确地分类训练集或所有属性都已被使用过。在整个森林的生长过程中 m将保持恒定； 3. 分类树为了达到低偏差和高差异而要充分生长，使每个节点的不纯度达到最小，不进行通常的剪枝操作。投票过程：随机森林采用 Bagging 方法生成多个决策树分类器。基本思想： 1. 给定一个弱学习算法和一个训练集，单个弱学习算法准确率不高，可以视为一个窄领域专家； 2. 将该学习算法使用多次，得出预测函数序列，进行投票，将多个窄领域专家评估结果汇总，最后结果准确率将大幅提升。随机森林的优点：可以处理大量的输入变量 ; 对于很多种资料，可以产生高准确度的分类器 ; 可以在决定类别时，评估变量的重要性 ; 在建造森林时，可以在内部对于一般化后的误差产生不偏差的估计 ; 教育资料 . 包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度 ; 提供一个实验方法，可以去侦测 variable interactions; 对于不平衡的分类资料集来说，可以平衡误差 ; 计算各例中的亲近度，对于数据挖掘、侦测偏离者（ outlier ）和将资料视觉化非常有用 ; 使用上述。可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料 ; 学习过程很快速。缺点随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 ; 对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。 R语言实现寻找最优参数 mtry ，即指定节点中用于二叉树的最佳变量个数 library( randomForest ) n-length(names(train_data)) #计算数据集中自变量个数，等同 n=ncol(train_dat a) rate= 1 #设置