第4章分类：基本概念、决策树和模型评估.pptVIP

下载本文档

32
0
约2.71千字
约 64页
2017-07-28 发布于河南
举报
版权申诉

第4章分类：基本概念、决策树和模型评估.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第4章分类：基本概念、决策树和模型评估

第4章分类：基本概念、决策树与模型评估;分类任务：确定对象属于哪个预定义的目标类;分类任务的输入数据是记录的集合。每条记录也称实例或者样例，用元组（x, y）表示，其中x是属性的集合，而y是一个特殊的属性，指出样例的类标号（也成为分类属性或目标属性）。;分类（classification）;输入属性集（x）;分类技术是一种根据输入数据集建立分类模型的系统方法。;训练集：由类标号已知的记录构成检验集：由类标号未知的记录构成;;同样，分类模型的性能也可以用错误率（error rate）来表示，其定义如下：;1、什么是决策树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个叶节点代表类或类分布;根结点（root node）：它没有入边，但是有零条或多条出边。内部结点（internal node）：恰好有一条入边和两条或多条出边。叶节点（leaf node）或终结点（terminal node）：恰好有一条入边，但没有出边。; 一旦构造了决策树，对检验记录进行分类就很容易。从树的根结点开始，将测试条件用于检验记录，根据测试结果选择适当的分支。沿着该分支或者到达另一个内部结点，使用新的测试条件，或者到达一个叶结点。到达叶结点之后，叶结点的类标号就被赋值给该检验记录。;如何建立决策树;在Hunt算法中，通过将训练记录相继划分成较纯的子集，以递归方式建立决策树。设是与结点t相关联的训练记录集，而是类标号，Hunt算法的递归定义如下。;Hunt算法;拖欠贷款者=否;如果属性值的每种组合都在训练数据中出现，并且每种组合都具有唯一的类标号，则Hunt算法是有效的。但是对于大多数实际情况，这些假设太苛刻了，因此，需要附加的条件来处理以下的情况：;决策树归纳的设计问题;表示属性测试条件的方法;2、标称属性由于标称属性有多个属性值，它的测试条件可以用两种方法表示。;3、序数属性序数属性也可以产生二元或多路划分，只要不违背序数属性值的有序性，就可以对属性值进行分组。;4、连续属性对于连续属性来说，测试条件可以是具有二元输出的比较测试或也可以是具有形如输出的范围查询。;有很多度量可以用来确定划分记录的最佳方法，这些度量用划分前和划分后的记录的类分布定义。;选择最佳划分的度量通常是根据划分后子女结点不纯性的度量。不纯的程度越低，类分布就越倾斜。例如（0,1）的结点具有零不纯性，而均衡分布（0.5, 0.5）的结点具有最高的不纯性。不纯性度量的例子包括：;结点N1;二元分类问题不纯性度量之间的比较;为确定测试条件的效果，我们需要比较父结点（划分前）的不纯性程度和子女结点（划分后）的不纯性程度，它们的差越大，测试条件的效果就越好。增益是一种可以用来确定划分效果的标准：;B;2、标称属性的划分;3、连续属性的划分;降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O（NlogN）;4、增益率;第一种策略：限制测试条件只能是二元划分。;决策树归纳特点的总结;9、子树可能在决策树中重复多次，这使得决策树过于复杂，并且可能更难解释。;使用仅涉及单个属性的测试条件不能有效划分的数据集的例子;构造归纳（constructive induction）;一个好的分类模型必须具有低训练误差和低泛化误差。;二维数据过分拟合的例子; 当决策树很小时，训练误差和检验误差都很大，这种情况称作模型拟合不足（model underfitting）。出现拟合不足的原因是模型尚未学习到数据的真实结构，因此，模型在训练集和检验集上的性能都很差。一旦树的规模变得太大，即使训练误差还在降低，但是检验误差开始增大，这种现象称为模型过分拟合（model overfitting）。; 为理解过分拟合现象，举个例子：可以扩展树的叶结点，直到它完全拟合训练数据。虽然这样一颗复杂的树的训练误差为0，但是检验误差可能很大，因为该树可能包含这样的结点，它们偶然地拟合训练数据中某些噪声。这些结点降低了决策树的性能，因为他们不能很好的泛化到检验样本。;名称;名称;完全拟合训练数据的决策树显示在下图（a）中，虽然该树的训练误差为0，但是它在检验数据集上的误差高达30%。;缺乏代表性样本导致的过分拟合;过分拟合与多重比较过程;1、过分拟合的主要原因一直是个争辩的话题，但大家还是普遍同意模型的复杂度对模型的过分拟合有影响。 2、如何确定正确的模型复杂

您可能关注的文档

文档评论（0）

xcs88858 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：8130065136000003

1亿VIP精品文档

更多 >

第4章分类：基本概念、决策树和模型评估.pptVIP