分类决策树_ID3算法(精华-理论加实例).pptVIP

  • 15
  • 0
  • 约2.02万字
  • 约 83页
  • 2019-08-04 发布于浙江
  • 举报

分类决策树_ID3算法(精华-理论加实例).ppt

第 6 章 决策树 决策树基本概念 决策树算法 决策树研究问题 主要内容 决策树基本概念 决策树算法 决策树研究问题 决策树基本概念 关于分类问题 分类(Classification)任务就是通过学习获得一个目标函数 (Target Function)f, 将每个属性集x映射到一个预先定义好的类 标号y。 分类任务的输入数据是纪录的集合,每条记录也称为实例 或者样例。用元组(X,y)表示,其中,X 是属性集合,y是一个 特殊的属性,指出样例的类标号(也称为分类属性或者目标属性) 决策树基本概念 关于分类问题 名称 体温 表皮覆盖 胎生 水生动物 飞行动物 有腿 冬眠 类标号 人类 恒温 毛发 是 否 否 是 否 哺乳动物 海龟 冷血 鳞片 否 半 否 是 否 爬行类 鸽子 恒温 羽毛 否 否 是 是 否 鸟类 鲸 恒温 毛发 是 是 否 否 否 哺乳类 X y 分类与回归 分类目标属性y是离散的,回归目标属性y是连续的 决策树基本概念 解决分类问题的一般方法 分类技术是一种根据输入数据集建立分类模型的系统方法。 分类技术一般是用一种学习算法确定分类模型,该模型可以很好 地拟合输入数据中类标号和属性集之间的联系。学习算法得到的 模型不仅要很好拟合输入数据,还要能够正确地预测未知样本的 类标号。因此,训练算法的主要目标就是要建立具有很好的泛化 能力模型,即建立能够准确地预测未知样本类标号的模型。 分类方法的实例包括:决策树分类法、基于规则的分类法、 神经网络、支持向量级、朴素贝叶斯分类方法等。 决策树基本概念 解决分类问题的一般方法 通过以上对分类问题一般方法的描述,可以看出分类问题 一般包括两个步骤: 1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。 2、预测应用(推论) 根据建立的分类模型,对测试集合进行测试。 决策树基本概念 解决分类问题的一般方法 TID A1 A2 A3 类 1 Y 100 L N 2 N 125 S N 3 Y 400 L Y 4 N 415 M N 学习算法 学习模型 模型 应用模型 TID A1 A2 A3 类 1 Y 100 L ? 2 N 125 S ? 3 Y 400 L ? 4 N 415 M ? 训练集(类标号已知) 检验集(类标号未知) 归纳 推论 决策树基本概念 决策树 决策树是一种典型的分类方法,首先对数据进行处理,利用 归纳算法生成可读的规则和决策树,然后使用决策对新数据进行 分析。本质上决策树是通过一系列规则对数据进行分类的过程。 决策树基本概念 决策树的优点 1、推理过程容易理解,决策推理过程可以表示成If Then形式; 2、推理过程完全依赖于属性变量的取值特点; 3、可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重要性,减少变量的数目提供参考。 决策树基本概念 关于归纳学习(1) 决策树技术发现数据模式和规则的核心是归纳算法。 归纳是从特殊到一般的过程。归纳推理从若干个事实中表 征出的特征、特性和属性中,通过比较、总结、概括而得出一 个规律性的结论。 归纳推理试图从对象的一部分或整体的特定的观察中获得 一个完备且正确的描述。即从特殊事实到普遍性规律的结论。 归纳对于认识的发展和完善具有重要的意义。人类知识的增长 主要来源于归纳学习。 决策树基本概念 关于归纳学习(2) 归纳学习的过程就是寻找一般化描述的过程。这种一般性 描述能够解释给定的输入数据,并可以用来预测新的数据。 锐角三角形内角和等于180度; 钝角三角形内角和等于180度; 三角形内角和 直角三角形内角和等于180度; 等于180度 已知三角形ABC,A角等于76度, B角等于89度,则其C角等于15度 归纳学习由于依赖于检验数据,因此又称为检验学习。归纳学习存在一个基本的假设: 任一假设如果能够在足够大的训练样本集中很好的逼近目标函数,则它也能在未见样本中很好地逼近目标函数。该假定是归纳学习的有效性的前提条件。 决策树基本概念 关于归纳学习(3) 决策树基本概念 关于归纳学习(4) 归纳过程就是在描述空间中进行搜索的过程。归纳可分为自 顶向下,自底向上和双向搜索三种方式。 自底向上法一次处理一个输入对象。将描述逐步一般化。直 到最终的一般化描述。

文档评论(0)

1亿VIP精品文档

相关文档