网站大量收购闲置独家精品文档,联系QQ:2885784924

决策树算法学生.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5.3 决策树算法 决策树算法是分类发现算法中最常见的一种方法。决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。 基于决策树的学习算法在学习过程中不需要用户了解很多背景知识,只要训练样本能够用属性——值的方式表述,就可以使用该算法来学习。 5.3.1 决策树算法概述 决策树算法通过构造决策树来发现数据中蕴涵的分类规则。如何构造精度高、规模小的决策树是决策算法的核心内容。 决策树的构造可以分为以下两步: ? 决策树的生成 ? 决策树的剪枝 一、决策树的生成 决策树的生成是指由训练样本数据集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要由实际的历史数据生成的、有一定综合程度的、用于数据分析处理的数据集。 在决策树的生成过程中,其输入为训练样本数据集,决策树是其最终的输出结果。 决策树: 决策树的每一个决策节点对应着对元组进行分类的一个决策属性,分枝对应着元组按该属性进一步划分的取值特征。叶子节点代表着各个类或类的分布。 决策树的生成过程由以下5个步骤组成: (1)根据用户的实际需要选择属性,包括类别标识属性(例如:利润为高、中、低三个类)和决策树的决策属性集。决策属性集指在候选属性(除了类别标识属性之外的所有属性)中选择的属性集。 (2)在决策属性集中选择最有分类标识能力的属性作为决策树的当前决策节点。决策树生成的第一个决策节点为所有决策属性中最有分类标识能力的属性,称为根节点。 (3)根据当前决策节点属性取值的不同,将训练样本数据集划分为若干子集。每个取值形成一个子集,该属性有几个取值则形成几个子集。 (4)针对上一步中得到的每一个子集,重复进行上述的(2)和(3)两个步骤,直到最后的子集符合下面的3个条件之一: 条件一:子集中的所有元组都属于同一类; 条件二:该子集是遍历了所有决策属性得到的, (5)生成叶子节点。 小结: 通过上述步骤,我们就得到了对数据元组进行分类的决策树。 由决策树的每一个从根节点到叶子节点的分枝都可以得到一条用于判断数据元组类别归属的初步规则,但在所得到的初步规则中,有一些预测规则准确性较低,因此需要对上述得到的决策树进一步处理,这个进一步处理的过程可由下一阶段——“剪枝”的过程完成。 二、决策树生成举例 假设某公司的历史销售数据生成如下表: 决策属性的选择: 首先,从训练样本数据集的属性中选择“利润”属性作为类别标识属性,从候选属性中选择用户感兴趣的属性“销售地区”、“客户行业”、“销售渠道”属性作为决策树的决策属性集。 根据决策树各类算法中的属性选择方法(例如ID3属性选择算法),从决策属性集中选择最具有分类标识能力的属性作为决策树的根节点,并根据该属性的取值将样本数据集分为不同的子集。 决策属性的选择续: 经过一定计算(ID3算法中介绍),选择“销售渠道”作为决策树的根节点,并根据“销售渠道”的取值不同(2个不同的取值)将上述训练样本数据集分为2个子集(见表5-3-2和表5-3-3): 决策属性的选择续: 对决策树的上述两个分枝,分别重复属性选择操作。在上述“销售渠道”为“直销”的分枝中,通过属性选择方法选择“客户行业”作为下一分枝的决策节点,将“销售渠道”为“直销”的子集进一步分为两个子集——“冶金”和“电力”(表5-3-4和表5-3-5): 在“销售渠道”为“直销”、“客户行业”为“电力”、“销售地区”为“华中”这一分枝中,类别标识属性有两个不同的取值,但是,已经没有可以继续分解的决策属性了,或者说该节点的形成已经遍历了全部的决策属性,故选择 三、决策树剪枝 决策树剪枝是对上一阶段所生成的决策树进行检验、校正和修正的过程,主要是采用新的样本数据集(称为测试数据集)中的数据检验决策树生成过程中产生的初步规则,将那些影响预测准确性的分枝剪除。一般情况下,根据测试数据集中的每一元组对生成的规则进行预测准确性的检验,如果预测准确性过低,则将该分枝剪除。 四、决策树剪枝举例 在生成决策树之后,利用表5-3-6给出的测试数据集对生成的决策树进行剪枝操作。

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档