网站大量收购独家精品文档,联系QQ:2885784924

数据仓库数据挖掘(CH6).pdf

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库数据挖掘(CH6).pdf

第6章 决策树 《数据仓库与数据挖掘》 吉林大学计算机科学与技术学院 李雄飞 绪 论 决策树学习是以实例为基础的归纳学习算法,是 应用最广泛的逻辑方法。本章介绍如下几个方面的内 容: •决策树的基本概念 •构建决策树的理论问题 •ID3算法 •决策树剪枝 •C4.5算法 数据仓库与数据挖掘 (42-2) 李雄飞等©2013 引言 •决策树学习 是以实例为基础的归纳学习算法,是应用最广泛的逻辑方法。 –典型的决策树学习系统 采用自顶向下的方法,在部分搜索空间中搜索解决方案。 它可以确保求出一个简单的决策树,但未必是最简单的。 •决策树的结点: – 内部结点 是属性或属性的集合,包括属性已被检验的节点。 • 内部节点的输出分枝和该节点的所有可能的检验结果相对应。 • 内部结点的属性称为测试属性。 – 叶结点 是所要学习划分的类。 数据仓库与数据挖掘 (42-3) 李雄飞等©2013 决策树发展历程 •1966 年,Hunt 等人提出的概念学习系统CLS(Concept Learning System)是最早的决策树算法。 •从20世纪60年代,决策树广泛应用在分类、预测、规则提取 等领域。 •1979年,J. R. Quinlan于提出ID3(Iterative Dichotomizer3) 算法后,决策树方法在机器学习、知识发现领域得到了进一步 应用。 •1993年,提出C4.5 ,C4.5是以ID3为蓝本的能处理连续属性 的算法。 •ID4和ID5是ID3的增量版本。 •强调伸缩性的决策树算法有SLIQ 、SPRINT 、RainForest算 法等。 •决策树常用来形成分类器和预测模型,可以对未知数据进行 分类或预测、数据挖掘等。 数据仓库与数据挖掘 (42-4) 李雄飞等©2013 使用决策树的步骤 •用决策树分类的步骤: – 第一步:利用训练集建立一棵决策树,形成决策树模型。 这是从数据中获取知识,进行机器学习的过程。 – 第二步:利用决策树模型对未知的数据样本进行分类。 从根结点开始对该对象的属性逐渐测试其值,并且顺着分支向下,直 至到达某个叶结点,此时叶结点代表的类即为该对象所属的类。 •训练决策树模型的步骤: – 第一步(建树)。 选取部分训练数据,按广度优先递归算法建立决策树,直到每个叶子 结点属于一个类为止。 – 第二步(剪枝)。 用剩余的数据对生成的决策树进行检验,将不正确的问题进行调整, 对决策树进行剪枝和增加结点,直到建立一个正确的决策树。 •建树是通过递归过程,最终得到一棵决策树 •剪枝则是为了降低噪声数据对分类正确率的影响。 数据仓库与数据挖掘 (42-5) 李雄飞等©2013 构建决策树的理论问题 例6.1 一个打网球的训练样本集S,分类属性PlayTennis有两个不同值{是, 否}。 数据仓库与数据挖掘 (42-6) 李雄飞等©2013 构建决策树的理论问题 决策树学习是在训练数据集上总结规律,形成一棵树形及结构。从树 根到叶子节点的路径形成决策规则。 • 其中的一条决策规则。

文档评论(0)

feiyang66 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档