决策树讲解概要.ppt

下载文档 降价啦

4
0
约4.73千字
约 21页
2018-04-12 发布于湖北
举报
版权申诉
保障服务

决策树讲解概要.ppt

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树讲解概要

C4.5 2）处理含有带缺失值属性的样本 C4.5 算法在处理缺失数据时最常用的方法是，将这些值并入最常见的某一类中或是以最常用的值代替之。 C4.5算法处理连续值属性过程 3）处理连续值属性以每个数据作为阈值划分数据集，代价是否过大？ C4.5 4）规则的产生决策树每条根节点到叶节点的路径都对应一个分类规则，可将所有这些路径综合转换为一个规则集。规则集存储于一个二维数组中，每一行代表决策树的一个规则。交互验证是一种模型的评估方法。在训练开始之前，预留一部分数据，而在训练之后，使用这部分数据对学习的结果进行验证的方法叫做交互验证。交互验证最简单的方法是两分法，将数据集划分为两个独立子集，一个称为训练集，一个称为测试集。另一种方法是K 次折叠交互验证，将数据集划分为K 个子集，留取一个作为测试集，其余K-1 个作为训练集，最后还对数据子集的错误数计算平均值。 5）交互验证（Cross Validation）从上面的改进描述可以看到，C4.5 相较ID3 有了许多提高，纵然如此，C4.5 仍然存在一定的不足之处。它在测试属性的判断和样本集分割方面仍旧存在一定的偏向性，同时C4.5 生成的决策树还称不上简洁，特别是对于数据属性及其取值较多的情况。因此，人们还在不断改进现有算法和提出新的算法。 CARE SLIQ CART（Classification And Regression Tree）算法该决策树算法模型采用的是二叉树形式，利用二分递归将数据空间不断划分为不同子集。同样的，每一个叶节点都有着与之相关的分类规则，对应了不同的数据集划分。为了减小CART 决策树的深度，在决策树某一分支节点对应数据集大多数为一类时，即将该分支设为叶节点。 CART算法采用GINI系数作为属性分裂的标准。在计算机大量普及的今天，虽然内存和CPU 越来越大，越来越快，但终究会有许多数据在处理的时候无法全部放入内存计算。在众多决策树算法中，大部分算法需要在决策树生成与分类时将数据集全部放入主存，这在数据集规模较小情况下没有问题，但是一旦数据规模超出主存限制，这些算法就无能为力了。SLIQ（Supervised Learning In Quest）算法为了解决上述问题，提出了一些改进，并且它能保证分类精度不变。在SLIQ 决策树的生成过程中可以应用其他算法，其精度也与这些算法一直，不过对于大数量级的数据，SLIQ 效率大大提高，生成的模型也较为精简。除此之外，由于SLIQ 破除了主存的限制，则其对训练数据量和属性量都没有限制了。 SLIQ （Supervised Learning In Quest）算法 SPRINT PUBLIC 由于SLIQ 仍存在对主存容量的限制，J.Shafter 等人提出了SPRINT（Scalable PaRallelizable INduction of decision Trees）算法，其在SLIQ 的基础上又做出了进一步的改进。该算法真正意义上破除了主存限制，使得决策树处理的数据规模达到了前所未有的境界。与此同时，并行算法的引入也使得SPRINT 算法具有更好的伸缩性。SPRINT 主要改进了SLIQ 的数据结构，合并SLIQ 中的类表与属性表，将这些数据结构均放于辅存之中。这样就使得算法在遍历属性列表寻找最优分裂时，只需使用辅存中的合并数据表。最后，SPRINT 采用的生成树策略是深度优先规则。并行算法就是用多台处理机联合求解问题的方法和步骤，其执行过程是将给定的问题首先分解成若干个尽量相互独立的子问题，然后使用多台计算机同时求解它，从而最终求得原问题的解。 SPRINT 算法在上述介绍的决策树算法中，所有算法均是先通过一定的规则建立决策树，然后在进行决策树剪枝，从而达到生成最终决策树的目的。而PUBLIC（A Decision Tree that Integrates Building and Pruning）算法则是典型的预剪枝决策树算法。作为预剪枝技术生成的决策树与后剪枝决策树是一致的，PUBLIC 算法采用Gini 系数作为分裂标准，可以说是CART 算法的一种有效改进。 PUBLIC 算法决策树的适用 C5.0 CHAID 1 2 3 4 SUGGESTION 一、 C 5.0算法（执行效率和内存使用改进、适用大数据集） 1）面对数据遗漏和输入字段很多的问题时非常稳健； 2）通常不需要很长的训练次数进行估计； 3）比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释； 4）允许进行多次多于两个子组的分割。目标字段必须为分类字段。 C4.5是在ID3算法的基础上将连续属性离散化，C5.0是在C4.5的基础上在内存和执行效率进行了改进。二、CHAID(卡方自动