决策树算法及应用论文拓展.ppt

下载文档 降价啦

6
0
约6.48千字
约 44页
2016-05-06 发布于安徽
举报
版权申诉
保障服务

决策树算法及应用论文拓展.ppt

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树算法及应用论文拓展.ppt

决策树算法及应用拓展内容简介：概述预备知识决策树生成(Building Decision Tree) 决策树剪枝(Pruning Decision Tree) 捕捉变化数据的挖掘方法小结概述(一) 传统挖掘方法的局限性只重视从数据库中提取规则，忽视了库中数据的变化挖掘所用的数据来自稳定的环境，人为干预较少概述(二) 捕捉新旧数据变化的目的：挖掘出变化的趋势例：啤酒——尿布阻止/延缓不利变化的发生例：金融危机——银行的信贷策略差异挖掘算法的主要思想：合理比较新/旧数据的挖掘结果，并清晰的描述其变化部分预备知识一(Building Tree) 基本思想：用途：提取分类规则，进行分类预测使用决策树进行分类决策树一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始，数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往下，直到一个叶子节点决策树算法基本算法（贪心算法）自上而下分而治之的方法开始时，所有的数据都在根节点属性都是种类字段 (如果是连续的，将其离散化) 所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain) 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割伪代码(Building Tree) Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do { 取出队列Q中的第一个节点N if N 不纯 (Pure) { for 每一个属性 A 估计该节点在A上的信息增益选出最佳的属性，将N分裂为N1、N2 } } 属性选择的统计度量信息增益——Information gain (ID3/C4.5) 所有属性假设都是种类字段经过修改之后可以适用于数值字段基尼指数——Gini index (IBM IntelligentMiner) 能够适用于种类和数值字段信息增益度度量(ID3/C4.5) 任意样本分类的期望信息： I(s1,s2,……,sm)=－∑Pi log2(pi) (i=1..m) 其中，数据集为S，m为S的分类数目， Pi Ci为某分类标号，Pi为任意样本属于Ci的概率， si为分类Ci上的样本数由A划分为子集的熵： E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj) A为属性，具有V个不同的取值信息增益：Gain(A)= I(s1,s2,……,sm) － E(A) 训练集(举例) 使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly Decision Tree (结果输出) 基尼指数 Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录，那么其Gini指标就是 pj 类别j出现的频率如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是提供最小Ginisplit 就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法). 预备知识二(Pruning Tree) 目的：消除决策树的过适应(OverFitting)问题实质：消除训练集中的异常和噪声两种方法：先剪枝法(Public 算法) 后剪枝法(Sprint 算法) 两种剪枝标准最小描述长度原则(MDL) 思想：最简单的解释最期望的做法：对Decision-Tree 进行二进位编码，编码所需二进位最少的树即为“最佳剪枝树” 期望错误率最小原则思想：选择期望错误率最小的子树进行剪枝对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率，比较后加以取舍 Cost of Encoding Data Records 对n条记录进行分类编码的代价(2种方法) n ——记录数，k ——类数目，ni——属于类i的记录数 Cost of Encoding Tree 编码树结构本身的代价编码每个分裂节点的代价确定分类属性的代价确定分类属性值的代价其中，v是该节点上不同属性值的个数