第4章分类基本概念决策树与模型评估.pptVIP

第4章分类基本概念决策树与模型评估.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

如果属性值的每种组合都在训练数据中出现,并且每种组合都具有唯一的类标号,则Hunt算法是有效的。但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况:(1)算法的第二步所创建的子女结点可能为空,即不存在与这些结点相关联的记录。如果没有一个训练记录包含这样的结点相关联的属性值组合,这种情形就可能发生。这时,该结点成为叶结点,类标号为其父结点上训练记录中的多数类。(2)在第二步,如果与相关联的所有记录都具有相同的属性值(目标属性除外),则不可能进一步划分这些记录。在这种情况下,该结点为叶结点,其标号为与该结点相关联的训练记录中的多数类。第17页,共61页,星期日,2025年,2月5日决策树归纳的设计问题(1)如何分裂训练记录?(2)如何停止分裂过程?树增长过程的每个递归步骤都必须选择一个属性测试条件,将记录划分成较小的子集。为了实现这个步骤。算法必须提供为不同类型的属性指定测试条件的方法,并且提供评估每种测试条件的客观度量。决策树需要有结束条件,以终止决策树的生长过程。一个可能的策略是分裂结点,直到所有的记录都属于同一个类,或者所有的记录都具有相同的属性值。第18页,共61页,星期日,2025年,2月5日表示属性测试条件的方法1、二元属性二元属性的测试条件产生两个可能的输出。体温恒温冷血二元属性的测试条件第19页,共61页,星期日,2025年,2月5日2、标称属性由于标称属性有多个属性值,它的测试条件可以用两种方法表示。婚姻状况单身已婚离异婚姻状况已婚单身,离异婚姻状况离异单身,已婚婚姻状况单身已婚,离异多路划分二元划分(通过属性值分组)第20页,共61页,星期日,2025年,2月5日3、序数属性序数属性也可以产生二元或多路划分,只要不违背序数属性值的有序性,就可以对属性值进行分组。衬衣尺码小号,中号大号,加大号衬衣尺码小号中号,加大号衬衣尺码小号,大号中号,加大号(a)(b)(c)第21页,共61页,星期日,2025年,2月5日4、连续属性对于连续属性来说,测试条件可以是具有二元输出的比较测试或也可以是具有形如输出的范围查询。年收入80k(a)(b)年收入是否10k{10k,25k}10k{25k,50k}{50k,80k}连续属性的测试条件第22页,共61页,星期日,2025年,2月5日有很多度量可以用来确定划分记录的最佳方法,这些度量用划分前和划分后的记录的类分布定义。选择最佳划分的度量设表示给定结点t中属于类i的记录所占的比例,有时,我们省略结点t,直接用表示该比例。在两类问题中,任意结点的类分布都可以记作其中。性别男女车型家用运动豪华C0:6C1:4C0:4C1:6C0:1C1:3C0:8C1:0C0:1C1:7(b)(a)C0:1C1:0C0:1C1:0C0:0C1:1C0:0C1:1顾客IDv1v10v20v11(c)……第23页,共61页,星期日,2025年,2月5日选择最佳划分的度量通常是根据划分后子女结点不纯性的度量。不纯的程度越低,类分布就越倾斜。例如(0,1)的结点具有零不纯性,而均衡分布(0.5,0.5)的结点具有最高的不纯性。不纯性度量的例子包括:熵:基尼指数:分类误差:其中c是类的个数,并且在计算熵时,第24页,共61页,星期日,2025年,2月5日结点N1计数类=00类=16结点N3计数类=03类=13结点N2计数类=01类=15第25页,共61页,星期日,2025年,2月5日二元分类问题不纯性度量之间的比较不同的不纯性度量是一致的,但是作为测试条件的属性选择仍然因不纯性度量的选择而异。第26页,共61页,星期日,2025年,2月5日为确定测试条件的效果,我们需要比较父结点(划分前)的不纯性程度和子女结点(划分后)的不纯性程度,它们的差越大,测试条件的效果就越好。增益是一种可以用来确定划分效果的标准:其中,是给定结点的不纯性度量,N是父结点上的记录总数,k是属性值的个数,是与子女结点相关联的记录个数。决策树算法选择最大化增益的测试条件。第27页,共61页,星期日,2025年,2月5日B是否结点N1结点N2A是否结点N1结点N2父结

文档评论(0)

xiaozhuo2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档