- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树算法及应用拓展PPT
决策树算法及应用拓展 内容简介: 概述 预备知识 决策树生成(Building Decision Tree) 决策树剪枝(Pruning Decision Tree) 捕捉变化数据的挖掘方法 小结 概述(一) 传统挖掘方法的局限性 只重视从数据库中提取规则,忽视了库中数据的变化 挖掘所用的数据来自稳定的环境,人为干预较少 概述(二) 捕捉新旧数据变化的目的: 挖掘出变化的趋势 例:啤酒——尿布 阻止/延缓不利变化的发生 例:金融危机——银行的信贷策略 差异挖掘算法的主要思想: 合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分 预备知识一(Building Tree) 基本思想: 用途:提取分类规则,进行分类预测 判定树分类算法 output 训练集 决策树 input 使用决策树进行分类 决策树 一个树性的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 属性选择的统计度量 信息增益——Information gain (ID3/C4.5) 所有属性假设都是种类字段 经过修改之后可以适用于数值字段 基尼指数——Gini index (IBM IntelligentMiner) 能够适用于种类和数值字段 信息增益度度量(ID3/C4.5) 任意样本分类的期望信息: I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m) 其中,数据集为S,m为S的分类数目, Pi Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数 由A划分为子集的熵: E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj) A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A) 训练集(举例) ID3算法 使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly Decision Tree (结果输出) age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 基尼指数 Gini Index (IBM IntelligentMiner) 集合T包含N个类别的记录,那么其Gini指标就是 pj 类别j出现的频率 如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是 提供最小Ginisplit 就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法). 预备知识二(Pruning Tree) 目的: 消除决策树的过适应(OverFitting)问题 实质:消除训练集中的异常和噪声 两种方法: 先剪枝法(Public 算法) 后剪枝法(Sprint 算法) 两种剪枝标准 最小描述长度原则(MDL) 思想:最简单的解释最期望的 做法:对Decision-Tree 进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树” 期望错误率最小原则 思想:选择期望错误率最小的子树进行剪枝 对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍 Cost of Encoding Data Records 对n条记录进行分类编码的代价(2种方法) n ——记录数,k ——类数目,ni——属于类i的记录数 Cost of Encoding Tree 编码树结构本身的代价 编码每个分裂节点的代价 确定分类属性的代价 确定分类属性值的代价 其中,v是该节点上不同属性值的个数 编码每个树叶上的记录分类的代价 剪枝算法 设N为欲计算其最小代价的节点 两种情形: N是叶结点——C(S)+1 ——Cost1 N是内部节点,有两个子节点N1、N2 已剪去N1、N2,N成为叶子节点 ——Cost1 计算N节点及其子树的代价,使用递归过程 Csplit(N)+1+minCost1+minCost2 ——Cost2 比较Cost1和Cost2,选取代价较小者作为返回值 计算最小子树代价的伪代码 Procedure ComputeCostPrune(Node N)
文档评论(0)