决策树建模培训资料课件.ppt

下载文档

9
0
约7.02千字
约 45页
2022-05-05 发布于重庆
举报
版权申诉
保障服务

决策树建模培训资料课件.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

§4.2 树的建模过程决策树算法的分类模型是一棵有向无环树，下面将以二叉树为例说明基本的决策树算法。决策树的每个节点有0或2个子节点，除了根节点以外，每个节点有且仅有一个父节点。如果节点没有子节点，则称它为叶节点，否则称为内部节点。第三十页，共四十五页。 §4.2 树的建模过程每个叶节点对应一个类标号，使用决策树对未知样本分类的类标号的值即为叶节点的值。每个内部节点都对应一个分枝方案，它包括用于节点分裂的属性 A 和分枝的判断规则 q。训练样本的属性分为数值属性和分类属性，数值属性的取值范围是一个连续的区间，比如实数集R; 而分类属性的取值范围则是离散值的集合 S(A)，比如性别属性的取值范围就是集合 {男，女}。如果属性A是数值属性，那么q 的形式是A≤v，其中v是属于A的取值范围的一个常量; 如果A是分类属性，那么q 的形式是A∈S’, 其中S’是S(A)的子集。第三十一页，共四十五页。 4.2.2 树的生长决策树是“一棵树”，它的根节点是整个数据集合空间，每个分节点是对一个单一变量(属性)的测试，该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先，通过训练集生成决策树，再通过测试集对决策树进行修剪。决策树的功能是预测一个新的记录属于哪一类。第三十二页，共四十五页。 4.2.2 树的生长通常, 通过自上而下递归分割的过程来构建决策树, 分为三个步骤: (1) 寻找初始分裂。整个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。决定哪个属性(field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。 (2) 树增长到一棵完整的树。重复第一步，直至每个叶节点内的记录都属于同一类，或达到其他停止准则。 (3)数据的修剪。去掉一些可能是噪音或者异常的数据或节点第三十三页，共四十五页。 4.2.2 树的生长其通用的基本算法(贪心算法)为: 以自上而下分而治之的方法，开始时，所有的数据都在根节点;属性都是种类字段(如果是连续的，将其离散化); 所有记录用所选属性递归地进行分割; 属性的选择是基于一个启发式规则或者一个统计的度量(如information gain)。停止分割的条件: 一个节点上的数据都是属于同一个类别或没有属性可以再用于对数据进行分割。第三十四页，共四十五页。 4.2.2 树的生长—算法的形式描述 Procedure BuildTree(S){ 用数据集S 初始化根节点 R 用根节点R 初始化队列 Q Whi1e Q is not Empty, do{ 取出队列Q中的第一个节点N if N 不纯(impure){ for 每一个属性 A 估计该节点在A上的信息增益选出最佳的属性, 将N分裂为N1,N2 } } } 第三十五页，共四十五页。 §4.2 树的建模过程-3 4.2.3 有效性和风险性基本的决策树算法没有考虑噪声, 生成的决策树完全与训练例子拟合。这样虽然能降低算法的时间复杂度，但也使算法在较深层次的样本划分中，专注于训练样本集某个子集的统计信息，而忽视各类样本的整体分布情况，造成了对噪声敏感。所以，虽然一棵完整的决策树能够非常准确地反映训练样本集中数据的特征，但因失去了一般代表性而无法对新数据进行准确的分类或预测，出现了过匹配现象。第三十六页，共四十五页。第十组：郭浩韩学成何珺何军黄安迪第一页，共四十五页。 §4.1 数据分类介绍分类是数据挖掘的一个重要课题, 它的目的是：构造一个分类函数或分类模型, 该模型能把数据库中的数据项映射到给定类别中的某一个。数据分类的过程一般来说主要包含两个步骤第一步, 建立一个描述已知数据集类别或概念的模型第二步, 利用所获得的模型进行分类操作第二页，共四十五页。 §4.1 数据分类介绍-2 第一步, 建立一个描述已知数据集类别或概念的模型该模型是通过对数据库中各数据进行内容的分析而获得的。分类学习方法所使用的数据集称为训练样本集合，每一数据行都属于一个确定的数据类别，其类别值是由一个属性来描述的(被称为类别标记属性)。因此分类学习又可称为监督学习，它是在已知训练样本类别情况下，通过学习建立相应模型。而无监督学习则是在训练样本的类别与类别个数均未知的情况下进行的，如聚类分析。第三页，共四十五页。 §4.1 数据分类介绍-2 第二步, 利用所获得的模型进行分类操作首先对模型分类准确率进