- 6
- 0
- 约4.24千字
- 约 72页
- 2021-09-16 发布于北京
- 举报
第3章分类与预测;主要内容;分类 VS. 预测;分类和预测---示例;数据分类——一个两步过程 (1);数据分类——一个两步过程 (2);第一步——建立模型;第二步——用模型进行分类;监督学习 VS. 无监督学习;数据预测的两步过程;3.1 决策树概述;决策树学习是以实例为基础的归纳学习。
从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
概念分类学习算法:来源于
Hunt,Marin和Stone 于1966年研制的CLS学习系统,用于学习单个概念。
1979年, J.R. Quinlan 给出ID3算法,并在1983年和1986年对ID3 进行了总结和简化,使其成为决策树学习算法的典型。
Schlimmer 和Fisher 于1986年对ID3进行改造,在每个可能的决策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算法。
1988年,Utgoff 在ID4基础上提出了ID5学习算法,进一步提高了效率。
1993年,Quinlan 进一步发展了ID3算法,改进成C4.5算法。
另一类决策树算法为CART,与C4.5不同的是,CART的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习实例的正例与反例。
其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。;决策树学习采用的是自顶向下的递归方法。
决策树的每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束,此时得到结论。
从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。
决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分枝和叶子,并添加到树中。 ;树是由节点和分枝组成的层次数据结构。节点用于存贮信息或知识,分枝用于连接各个节点。树是图的一个特例,图是更一般的数学结构,如贝叶斯???络。
决策树是描述分类过程的一种数据结构,从上端的根节点开始,各种分类原则被引用进来,并依这些分类原则将根节点的数据集划分为子集,这一划分过程直到某种约束条件满足而结束。 ;可以看到,一个决策树的内部结点包含学习的实例,每层分枝代表了实例的一个属性的可能取值,叶节点是最终划分成的类。如果判定是二元的,那么构造的将是一棵二叉树,在树中每回答一个问题就降到树的下一层,这类树一般称为CART(Classification And Regression Tree)。
判定结构可以机械的转变成产生式规则。可以通过对结构进行广度优先搜索,并在每个节点生成“IF…THEN”规则来实现。如图6-13的决策树可以转换成下规则:
IF “个子大” THEN
IF “脖子短” THEN
IF “鼻子长” THEN 可能是大象
形式化表示成;构造一棵决策树要解决四个问题:
收集待分类的数据,这些数据的所有属性应该是完全标注的。
设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。
分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更令人满意。
设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性往往是有限几个,因此在必要的时候应该停止数据集分裂:
该节点包含的数据太少不足以分裂,
继续分裂数据集对树生成的目标(例如ID3中的熵下降准则)没有贡献,
树的深度过大不宜再分。
通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分类潜力的准则最先被提取出来 ;预测变量;根节点;每一个节点都代表了一个数据集。
根节点1代表了初始数据集D
其它节点都是数据集D的子集。
例如,节点2代表数据集D中年龄小于40岁的那部分样本组成的数据集。
子节点是父节点的子集。
If (年龄40) and (职业=“学生” or职业=“教师”) Then 信用等级=“优”
If (年龄40) and (职业!=“学生”and职业!=“教师”) Then 信用等级=“良”
If (年龄≥40) and (月薪1000) Then 信用等级=“差”
If (年龄≥40) and (月薪≥1000 and月薪≤3000) Then 信用等级=“良”
If (年龄≥40) and (月薪3000) Then 信用等级=“优”
您可能关注的文档
最近下载
- 【精美】药学服务与药患沟通技能讲座PPT课件.pptx VIP
- 风力发电场电气设计.pptx VIP
- 2025年度“六个方面”组织生活会六个方面的对照检查材料.docx VIP
- 【低空经济】市低空经济产业发展行动方案编制.docx VIP
- 11J508 建筑玻璃应用构造-栏板 隔断 地板 吊顶 水下玻璃 挡烟垂壁.pdf VIP
- DB32∕T 2677-2014 公路涉路工程安全影响评价报告编制标准.docx VIP
- 2026中国农业科学院第一批招聘(中国农业科学院农产品加工研究所)考试冲刺试题及答案解析.docx VIP
- 铁路隧道渗漏水病害整治施工方案.doc
- 《电力企业合规管理体系有效性评价指南》编制说明.pdf VIP
- 酒店保洁服务整体投标方案(技术方案).doc
原创力文档

文档评论(0)