- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
模式识别与智能计算第七章决策树分类器设计杨淑莹
第七章决策树分类器设计7.1决策树的基本概念1.决策树的基本原理2.决策树分类3.决策树方法的特点7.2决策树理论的分类方法1.理论基础3.编程代码2.实现步骤4.效果图7.3总结
7.1决策树的基本概念1.决策树的基本原理决策树(DecisionTree):又称为判定树,是用于分类和预测的一种树结构。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,在决策树的叶节点得到结论。
例1图1所示为买车问题的决策树,从中可以看出一位客户是否会买汽车,用它可以预测某个人的购买意向。决策树的基本概念年龄月薪买健康状况不买买不买买30303000不好好图1买车问题的决策树
决策树的基本概念自然树对应决策树中的意义分类问题中的表示意义树根根节点训练实例整个数据集空间杈内部节点、决策节点待分类对象的属性树枝分支属性的一个可能取值叶子叶子结点、状态节点数据分割(分类结果)表1决策树与自然树的对应关系及代表含义构造决策树通常采用自上而下的递归构造方法。如果训练集中所有数据都是同类的,则将之作为叶节点,节点内容即该类标记,否则根据某种策略选择一个属性,按照属性的各个取值,把数据集合划分若干个子集,使得每个子集上的所有数据在该属性上具有同样的属性值。
2.决策树分类决策树分类算法起源于概念学习系统,然后发展到ID3方法,最后又演化为能处理连续属性的C4.5。此外,还有CART、SLIQ、SPRINT等方法。使用决策树进行分类可分为两步:步骤1:建立决策树模型:利用训练集建立并精化一棵决策树。(建树、剪枝)步骤2:利用生成的决策树对数据进行分类。决策树的基本概念
3.决策树方法的特点与其他分类方法相比,决策树分类有如下优点:分类速度快,计算量相对较小,容易转化成分类规则。分类准确性高,从决策树中挖掘出的规则准确性高且便于理解。决策树的基本概念
7.2决策树理论的分类方法1.理论基础Quinlan提出的ID3算法是决策树算法的代表,具有描述简单、分类速度快的优点,大多数决策树算法都是在它的基础上加以改进而实现的。
(1)ID3算法基本思想决策树理论的分类方法年龄月薪买健康状况不买买不买买30303000不好好图1买车问题的决策树
(2)属性选择度量期望信息量:设训练集为,样品总数为N,其中包含M个不同的类ωi(i=1,2,…,M)的样品的个数。设Ni是中属于类ωi的样品个数。对一个给定样品分类所需的期望信息为其中,pi是样品属于ωi的概率。决策树理论的分类方法
熵:熵是一个衡量系统混乱程度的统计量,熵越大,表示系统越混乱。对于给定子集Sj,有决策树理论的分类方法
决策树理论的分类方法信息增益:Gain(A)是指由于知道属性A的值而导致的熵的期望压缩。在属性A上分支获得的信息增益表示为
例2表2所示的是一个顾客买车意向的训练集,通过此例来说明属性选择方法。决策树理论的分类方法样品编号年龄月薪健康状况买车意向1303000好不买2303000不好不买330≥3000不好买430≥3000好买530~603000好买630~60≥3000好买730~60≥3000不好买8603000好买9603000不好不买1060≥3000不好不买表2
决策树理论的分类方法从表2中可以看出,类属性“买车意向”有两个不同的值{买,不买},因此一共有两个类M=2。设ω1对应于“买”,ω2对应于“不买”,则ω1有6个样本,N1=6,ω2有4个样本,N2=4。首先计算期望信息I(N1,N2)。然后计算每个属性的熵。对于属性“年龄”,有三种取值,即三个子集,分别计算三个子集的期望信息。
决策树理论的分类方法计算样本按“年龄”划分成子集的熵为信息增益为同理,我们可以得到其余两个属性的信息增益:
决策树理论的分类方法图2对属性“年龄”进行划分对属性“年龄”划分后得到图2所示树,年龄30~60的样本都是同一类,故可作为叶子结点,因此对年龄30以及60的需要继续操作.
决策树理论的分类方法(3)决策树剪枝剪枝就是指将决策树的某些内部节点下面的节点都删掉,留下来的内部决策节点作为叶子节点。为什么需要剪枝?决策树是充分考虑了所有的数据点而生成的复杂树,它在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,造成决策树很庞大。决策树过于庞大,有可能出现过拟合的情况,决策
您可能关注的文档
- a1模式识别与智能计算第一章.ppt
- a2模式识别与智能计算第二章.ppt
- a3模式识别与智能计算第三章.ppt
- a4模式识别与智能计算第四章+基于统计概率的贝叶斯分类器设计.ppt
- a5模式识别与智能计算第五章+判别函数分类器设计.pptx
- a6模式识别与智能计算第六章-神经网络分类器设计.pptx
- a8模式识别与智能计算第八章+粗糙集分类器设计.pptx
- a9模式识别与智能计算第九章+聚类分析.pptx
- a10模式识别与智能计算第十章+模糊聚类分析.pptx
- a11模式识别与智能计算第十一章+遗传算法聚类分析.pptx
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
最近下载
- 通用学术英语进阶(北京科技大学)中国大学MOOC(慕课)章节测验试题(答案).pdf
- 最新部编版语文期末复习三年级非连续性文本阅读(附参考答案).docx
- 政务服务中心软硬件项目运维服务方案2.doc VIP
- 火力发电厂直接空冷工程技术规范初稿.doc
- 2024年河北省继续医学教育公共选修课参考答案.pdf VIP
- 老友记台词剧本第一季第1集中英双语左右对照.pdf
- 2024-2025学年广东省广州市省实教育集团初三数学试题第一次模拟考试试题含解析.doc VIP
- 【国家标准】国家职业技能标准 (2019年版) 起重装卸机械操作工.pdf
- 肺结核诊疗方案毕业设计.docx
- 2024年广东省职业院校技能大赛(中职组)智慧物流作业赛项考试题库(含答案).docx VIP
文档评论(0)