随机森林及CART的算法.pptVIP

下载本文档

349
0
约3.59千字
约 20页
2017-06-24 发布于湖北
举报
版权申诉

随机森林及CART的算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随机森林及CART的算法

随机森林随机森林的基本思想：通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。随机森林有两个重要参数：一是树节点预选的变量个数；二是随机森林中树的个数。随机森林算法随机森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需要调整的参数较少、不必担心过度拟合、分类速度很快, 能高效处理大样本数据、能估计哪个特征在分类中更重要以及较强的抗噪音能力等特点, 因此, 在基因芯片数据挖掘、代谢途径分析及药物筛选等生物学领域得到应用并取得了较好的效果。该方法是基于决策树（decision tree）的分类器集成算法。自助法重采样在统计量重采样技术中，一种新方法是自助法（bootstrap）。自助法是从原始的样本容量为N的训练样本集合中随机抽取N个样本生成新的训练样本集，抽样方法为有放回抽样，这样重新采样的数据集不可避免地存在着重复的样本。独立抽样k次，生成k个相互独立的自助样本集。随机森林算法基本原理随机森林是通过一种新的自助法重采样技术生成很多个树分类器, 其步骤如下：　1. 从原始训练数据中生成ｋ个自助样本集, 每个自助样本集是每棵分类树的全部训练数据。　2. 每个自助样本集生长为单棵分类树。在树的每个节点处从Ｍ个特征中随机挑选ｍ个特征（ｍ《Ｍ）, 按照节点不纯度最小的原则从这个ｍ特征中选出一个特征进行分支生长。这棵分类树进行充分生长, 使每个节点的不纯度达到最小, 不进行通常的剪枝操作。根据生成的多个树分类器对新的数据进行预测,分类结果按每个树分类器的投票多少而定。随机森林通过在每个节点处随机选择特征进行分支，最小化了各棵分类树之间的相关性，提高了分类精确度。因为每棵树的生长很快，所以随机森林的分类速度很快，并且很容易实现并行化。随机森林分类性能的主要因素 ID3和cart的算法区别 CART是L.Breiman等人在1984 年提出的决策树算法，其原理与ID3相似，在CART中提出了杂度削减的概念，按杂度削减最大分裂节点生长决策树，与ID3不同的是，CART最终生成二叉树，然后利用重采技术进行误差估计和树剪枝，然后选择最优作为最终构建的决策树。这些算法均要求训练集全部或一部分在分类的过程中一直驻留在内存中。 CART 有良好的优越性, 但是, 并不是说在任何情况下CART 方法都好。对于许多数据集, CART 方法产生的树并不稳定。训练样本集的一点轻微改变都可能完全改变树的结构, 这些特点存在于具有显著相关特征的数据集中。在CART 中, 问题就转换为在单个结点处存在几个分支, 而这几个分支在减少子结点的所有复杂度方面几乎是等价的。从而一个特定的分支选择是比较随意的, 但是它将导致更多可能不同的树。这种不稳定性意味着使用者必须十分清楚由CART 产生的树中特定特征的充分解释。另一方面, 这一特点暗含着具有相似判别能力的不同树的有用性, 它允许通过树的使用改变特征的选择。 CART的全称是分类和回归树，既可以做分类算法，也可以做回归。决策树的优缺点：优点：1.可以生成可以理解的规则。2.计算量相对来说不是很大。3.可以处理连续和种类字段。4.决策树可以清晰的显示哪些字段比较重要缺点：1. 对连续性的字段比较难预测。2.对有时间顺序的数据，需要很多预处理的工作。3.当类别太多时，错误可能就会增加的比较快。4.一般的算法分类的时候，只是根据一个字段来分类。 * * 随机森林分类器组合 AdaBoosting(Adaptive Boosting) 对每个样本赋予一个权重，代表该样本被当前分类器选入训练集的概率，并根据预测函数的输出与期望输出的差异调整权重：如某个样本点已被正确分类，则它的权重减小，否则，它的权重增大；通过这种方式，使得学习算法能集中学习较难判别的样本。经过T轮训练，得到T个分类函数 {f1,f2,…,fT}及对应的权重{?1, ?2,…, ?T}，最终的分类规则为加权投票法 Bagging(Breiman,1996) 在训练的每一轮中，均从原始样本集S中有放回地随机抽取训练样本集T（T的样本个数同S），这样一个初始样本在某轮训练中可能出现多次或根本不出现（ S中每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368，当|S|很大时）。最终的分类规则为简单多数投票法或简单平均法森林中单颗树的分类强度（Strength）：每颗树的分类强度越大，则随机森林的分类性能越好。森林中树之间的相关度（Correlatio