第4章 分类:基本概念、决策树和模型评估.pptVIP

第4章 分类:基本概念、决策树和模型评估.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 分类:基本概念、决策树和模型评估

第4章 分类:基本概念、决策树与模型评估;分类任务:确定对象属于哪个预定义的目标类;分类任务的输入数据是记录的集合。每条记录也称实例或者样例,用元组(x, y)表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号(也成为分类属性或目标属性)。;分类(classification);输入属性集(x);分类技术是一种根据输入数据集建立分类模型的系统方法。;训练集:由类标号已知的记录构成 检验集:由类标号未知的记录构成;;同样,分类模型的性能也可以用错误率(error rate)来表示,其定义如下:;1、什么是决策树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个叶节点代表类或类分布;根结点(root node):它没有入边,但是有零条或多条出边。 内部结点(internal node):恰好有一条入边和两条或多条出边。 叶节点(leaf node)或终结点(terminal node):恰好有一条入边, 但没有出边。; 一旦构造了决策树,对检验记录进行分类就很容易。从树的根结点开始,将测试条件用于检验记录,根据测试结果选择适当的分支。沿着该分支或者到达另一个内部结点,使用新的测试条件,或者到达一个叶结点。到达叶结点之后,叶结点的类标号就被赋值给该检验记录。;如何建立决策树;在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设 是与结点t相关联的训练记录集,而 是类标号,Hunt算法的递归定义如下。;Hunt算法;拖欠贷款者=否;如果属性值的每种组合都在训练数据中出现,并且每种组合都具有唯一的类标号,则Hunt算法是有效的。但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况:;决策树归纳的设计问题;表示属性测试条件的方法;2、标称属性 由于标称属性有多个属性值,它的测试条件可以用两种方法表示。;3、序数属性 序数属性也可以产生二元或多路划分,只要不违背序数属性值的有序性,就可以对属性值进行分组。;4、连续属性 对于连续属性来说,测试条件可以是具有二元输出的比较测试 或 也可以是具有形如 输出的范围查询。;有很多度量可以用来确定划分记录的最佳方法,这些度量用划分前和划分后的记录的类分布定义。;选择最佳划分的度量通常是根据划分后子女结点不纯性的度量。不纯的程度越低,类分布就越倾斜。例如(0,1)的结点具有零不纯性,而均衡分布(0.5, 0.5)的结点具有最高的不纯性。不纯性度量的例子包括:;结点N1;二元分类问题不纯性度量之间的比较;为确定测试条件的效果,我们需要比较父结点(划分前)的不纯性程度和子女结点(划分后)的不纯性程度,它们的差越大,测试条件的效果就越好。增益 是一种可以用来确定划分效果的标准:;B;2、标称属性的划分;3、连续属性的划分;降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O(NlogN);4、增益率;第一种策略:限制测试条件只能是二元划分。;决策树归纳特点的总结;9、子树可能在决策树中重复多次,这使得决策树过于复杂,并且可能更难解释。;使用仅涉及单个属性的测试条件不能有效划分的数据集的例子;构造归纳(constructive induction);一个好的分类模型必须具有低训练误差和低泛化误差。;二维数据过分拟合的例子; 当决策树很小时,训练误差和检验误差都很大,这种情况称作模型拟合不足(model underfitting)。出现拟合不足的原因是模型尚未学习到数据的真实结构,因此,模型在训练集和检验集上的性能都很差。 一旦树的规模变得太大,即使训练误差还在降低,但是检验误差开始增大,这种现象称为模型过分拟合(model overfitting)。; 为理解过分拟合现象,举个例子:可以扩展树的叶结点,直到它完全拟合训练数据。虽然这样一颗复杂的树的训练误差为0,但是检验误差可能很大,因为该树可能包含这样的结点,它们偶然地拟合训练数据中某些噪声。这些结点降低了决策树的性能,因为他们不能很好的泛化到检验样本。;名称;名称;完全拟合训练数据的决策树显示在下图(a)中,虽然该树的训练误差为0,但是它在检验数据集上的误差高达30%。;缺乏代表性样本导致的过分拟合;过分拟合与多重比较过程;1、过分拟合的主要原因一直是个争辩的话题,但大家还是普遍同意模型的复杂度对模型的过分拟合有影响。 2、如何确定正确的模型复杂

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档