随机森林原理解释与其中各个参数地含义中文解释.pdfVIP

下载本文档

5
0
约4.27千字
约 3页
2019-08-06 发布于江苏
举报
版权申诉

随机森林原理解释与其中各个参数地含义中文解释.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、RF原理解释：首先，从给定的训练集通过多次随机的可重复的采样得到多个 bootstrap 数据集。接着，对每个 bootstrap 数据集构造一棵决策树，构造是通过迭代的将数据点分到左右两个子集中实现的，这个分割过程是一个搜索分割函数的参数空间以寻求最大信息增量意义下最佳参数的过程。然后，在每个叶节点处通过统计训练集中达到此叶节点的分类标签的直方图经验的估计此叶节点上的类分布。这样的迭代训练过程一直执行到用户设定的最大树深度（随机森林提出者 Breiman采用的是 ntree=500 ）或者直到不能通过继续分割获取更大的信息增益为止，网上的代码中作者都是对树的最大深度设置了最大值。二、函数，参数的中文解释 function model = classRF_train(X,Y,ntree,mtry, extra_options) 随机森林中模型的训练 X, 表示输入的数据矩阵 Y 输出 Ntree 设置的树的数目 Mtry 的默认值为 floor(sqrt(size(X,2)) ，表示不超过矩阵 X列数的二次开根值的整数。 extra_options 包含很多控制 RF的项 extra_options.replace 取值为 1或 0 ，默认值为 1 ，表示是否做变量替换 extra_options.classwt 表示预先知道的类，函数首先得到一个升序排列的标签然后给先前的类同样的排序。 extra_options.cutoff 只在分类器中使用的一个向量，长度等于类的数目。对类的观察值是取对cutoff 投票占的的最大比例的一个。 extra_options.strata 用于分层抽样 extra_options.sampsize 样本的长度 extra_options.nodesize 表示终端节点的最小值，这个参数设置得越大会使更小的树生长，耗时更少。 extra_options.importance 判断是否需要对预测器的 importance 进行评估 extra_options.localImp 决定是否对 casewise 的重要性度量进行计算 extra_options.proximity 判别是否计算行之间的距离 extra_options.oob_prox 判断是否计算 out-of-bag extra_options.do_trace 如果设定为 TRUE，当随机森林运行的时候输出更多冗长的数据。如果设置为一些整数，输出每个追踪树。 extra_options.keep_inbag 通过树的数目矩阵跟踪每个样本在树上的 in-bag 。 norm_votes 统计每一类的投票数 importance 对于分类器来说是一个列数等于类别数加二，第一列计算精度下降值。在 ncalss+1 列表示所有类平均精度减少值。最后一列表示 Gini 指数平均减小值。在随机森林用于回归的应用中importance 表示的含义又不一样，我们只用到分类的作用，所以对回归的含义不做介绍。 importanceSD 标准差 localImp 包含 importance 标准化残差测量值的矩阵 ntree 生长的树的数目 mtry 在每一个分裂节点处样本预测器的个数。 Votes 一个矩阵，行表示每一个输入数据点，列表示每一类，记录投票数。 Proximity 如果 proximity=TRUE 表示随机森林被调用。 Combine 把树结合起来 getTree(rfobj, k=1, labelVar=FALSE) ，这个函数的作用是从随机森林中提取树的结构， rfob 表示对应的随机森林， k 表示要提取的那棵树， , labelVar 表示是否是最好的标签用于变量分离和类的预测。在分类器预测中分裂点用整数表示，比如预测器如果有四个参数，分裂点是十三，就表示成（ 1.0.1.1 ）因为 13 1* 20 0 * 21 1* 22 1* 23 if labelVar=TRUE) 一个列数为六，行数等于树中节点总数的矩阵。六列分别为： left daughter ，如果是末端左子女节