- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树建模
§4.2 树的建模过程 每个叶节点对应一个类标号,使用决策树对未知样本分类的类标号的值即为叶节点的值。每个内部节点都对应一个分枝方案,它包括用于节点分裂的属性 A 和分枝的判断规则 q。 训练样本的属性分为数值属性和分类属性,数值属性的取值范围是一个连续的区间,比如实数集R; 而分类属性的取值范围则是离散值的集合 S(A),比如性别属性的取值范围就是集合 {男,女}。 如果属性A是数值属性,那么q 的形式是A≤v, 其中v是属于A的取值范围的一个常量; 如果A是分类属性,那么q 的形式是A∈S’, 其中S’是S(A)的子集。 4.2.2 树的生长 决策树是“一棵树”,它的根节点是整个数据集合空间,每个分节点是对一个单一变量(属性)的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。 首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。 决策树的功能是预测一个新的记录属于哪一类。 4.2.2 树的生长 通常, 通过自上而下递归分割的过程来构建决策树, 分为三个步骤: (1) 寻找初始分裂。整个训练集作为产生决策树的集合, 训练集每个记录必须是已经分好类的。决定哪个属性(field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。 (2) 树增长到一棵完整的树。重复第一步,直至每个叶节点 内的记录都属于同一类,或达到其他停止准则。 (3)数据的修剪。去掉一些可能是噪音或者异常的数据或节点 4.2.2 树的生长 其通用的基本算法(贪心算法)为: 以自上而下分而治之的方法,开始时,所有的数据都在根节点;属性都是种类字段(如果是连续的,将其离散化); 所有记录用所选属性递归地进行分割; 属性的选择是基于一个启发式规则或者一个统计的度量(如information gain)。 停止分割的条件: 一个节点上的数据都是属于同一个类别或没有属性可以再用于对数据进行分割。 4.2.2 树的生长—算法的形式描述 Procedure BuildTree(S){ 用数据集S 初始化根节点 R 用根节点R 初始化队列 Q Whi1e Q is not Empty, do{ 取出队列Q中的第一个节点N if N 不纯(impure){ for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性, 将N分裂为N1,N2 } } } §4.2 树的建模过程-3 4.2.3 有效性和风险性 基本的决策树算法没有考虑噪声, 生成的决策树完全与训练例子拟合。 这样虽然能降低算法的时间复杂度,但也使算法在较深层次的样本划分中,专注于训练样本集某个子集的统计信息,而忽视各类样本的整体分布情况,造成了对噪声敏感。 所以,虽然一棵完整的决策树能够非常准确地反映训练样本集中数据的特征,但因失去了一般代表性而无法对新数据进行准确的分类或预测,出现了过匹配现象。 4.2.3 有效性和风险性 过匹配指的是模型由于过度训练,导致其记住的不是训练数据的一般特性,而是训练集的局部特性。 当将这个模型应用到新的测试集上时就导致预测结果的不准确。 因此,一个完整的决策树构造过程将包含决策树的创建和决策树的剪枝这两方面。 剪枝是一种克服噪声的技术,用于解决过匹配问题,同时它也能使树得到简化而变得更容易理解。 4.2.3 有效性和风险性 剪枝的原则包括: 奥卡姆剃刀原则——“如无必要,勿增实体”。即在与观察相容的情况下,应当选择最简单的一棵决策树。 决策树越小就越容易理解,其存储与传输的代价也就越小。 决策树越复杂,节点越多,每个节点包含的训练样本个数越少,则支持每个节点的假设的样本个数就越少,可能导致决策树在测试集上的分类错误率就会增大。但决策树过小也会导致错误率较大。因此, 需要在树的大小与正确率之间寻找均衡点 4.2.3 有效性和风险性 常用的剪枝技术有预剪枝(pre-pruning)和后剪枝(post-pruning)两种。 预剪枝:在构造决策树时,决定不再对不纯的训练子集 进行进一步划分的剪枝方法 预剪枝技术限制了决策树的过度生长 如CHAID, ID3系列的ID3、C4.5算法等 后剪枝:在树完全生成之后的剪枝策略 如CART算法等 剪枝的目的就是删除由于噪声数据而引起的分枝,从而避免决策树的过匹配。 4.2.3 有效性和风险性 预剪枝中最直接而简单的方法是事先指定决策树生长的最大深度,使决策树不能得到充分生长。这种停止标准一般能够取得比较
文档评论(0)