- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树 主讲人:xxx 主要内容 决策树基本概念 基本流程 划分选择 剪枝处理 决策树基本概念 决策树 决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。在机器学习中也是一种常用方法。 我们希望从给定的训练集中学得一个模型用来对新示例进行分类,这一分类过程称为“决策”过程。决策树是基于树结构进行决策的。 基本流程 构造过程: 决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则;采用自顶向下递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,而叶节点是要学习划分的类。从根节点到叶节点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。 例如:我们要对“这是好瓜吗”这样的问题进行决策时,通常 会进行一系列的判断:我们先看“它是什么颜色”,如果是“青 绿色”再看“它的根蒂是什么形态”,如果是“蜷缩”,我们在判 断“它敲起来是什么声音”,最后,我们得出最终的决策:这是 个好瓜,这个过程如下: 决策树的基本组成部分:决策结点、分支和叶子。 决策树算法 目前已有多种决策树算法:CLS、ID3、CHAID、C4.5、CART、 SLIQ、SPRINT等。 著名的ID3(Iterative Dichotomiser3)算法是J.R.Quinlan在1986 年提出的,该算法引入了信息论中的理论,是基于信息熵的决策树分类算法。 决策树ID3算法 ,最后得到一棵决策树,它可以用来对新的样本进行分类。 ID3算法的核心是:在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个非叶节点进行测试时能获得关于被测试记录最大的类别信息。 具体方法:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分枝,再对各分支的子集递归调用该方法建立决策树结点的分枝,直到所有子集仅包含同一类别的数据为止,最后得到一棵决策树,它可以用来对新的样本进行分类。 Ent(D)的值越小,则D的纯度越高。 假定属性a有V个可能的取值{a1 ......av},若使用a来对样本集D进行划分,则会产生V个分支节点,其中第V个分支节点包含了D中所有在属性a上取值为av的样本,记为Dv。在考虑到不同的分支节点所包含的样本不同,给分支节点赋予权重Dv/D,即样本数越多的分支节点的影响越大,于是计算出属性 a对样本D进行划分所获得的“信息增益”(information gain)。 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度”(即分支节点所包含的样本尽可能属于同一类别) 以下表的西瓜数据为例 以属性“色泽”为例,它有三个可能取值{青绿,乌黑,浅白},记为:D1==青绿,D2=乌黑,D3=浅白算D1包含{1,4,6,10,13,17}6个样例,其中正比例P1=3/6,反比例P2=3/6;D2包含{2,3,7,8,9,15}6个样例,其中正比例P1=4/6,反比例P2=2/6;D3包含{5,11,12,14,16}5个样例,其中正比例P1=1/5,反比例P2=4/5。 由此可计算出用“色泽”划分之后的三个分支节点的信息熵为 于是可计算出属性“色泽”的信息增益为
文档评论(0)