- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘技术 ; 第5章 决策树和决策规那么 ;Age;5.1 引例;5.1 引例;5.2 分类问题概述;;;;;;;; 决策树方法的起源是亨特〔Hunt,1966〕的概念学习系统CLS方法,然后开展到由Quinlan研制ID3方法,然后到著名的C4.5算法,C4.5算法的一个优点是它能够处理连续属性。还有CART算法和Assistant算法也是比较有名的决策树方法。 ;决策树的优点:
进行分类器设计时,决策树分类方法所需时间相对较少
决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式
可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规那么,这种形式更有利于理解;1. 什么是决策树
决策树〔Decision Tree〕又称为判定树,是运用于分类的一种树结构。其中的每个内部结点〔internal node〕代表对某个属性的一次测试,每条边代表一个测试结果,叶结点〔leaf〕代表某个类〔class〕或者类的分布〔class distribution〕,最上面的结点是根结点。
决策树提供了一种展示类似在什么条件下会得到什么值这类规那么的方法。下例是为了解决这个问题而建立的一棵决策树,从中可以看到决策树的根本组成局部:决策结点、分支和叶结点。;〖例〗图5-2 给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购置PC〔buys_computer〕的知识,用它可以预测某条记录〔某个人〕的购置意向。 ;这棵决策树对销售记录进行分类,指出一个电子产品消费者是否会购置一台计算机“buys_computer〞。每个内部结点〔方形框〕代表对某个属性的一次检测。每个叶结点〔椭圆框〕代表一个类:
buys_computers=yes 或者
buys_computers=no
?
在这个例子中,样本向量为:
〔age, student, credit_rating; buys_computers〕
?
被决策数据的格式为:
〔age, student, credit_rating〕
?
输入新的被决策的记录,可以预测该记录隶属于哪个类。;2. 使用决策树进行分类
构造决策树是采用自上而下的递归构造方法。以多叉树为例,如果一个训练数据集中的数据有几种属性值,那么按照属性的各种取值把这个训练数据集再划分为对应的几个子集〔分支〕,然后再依次递归处理各个子集。反之,那么作为叶结点。
决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点〔非叶结点〕一般表示为一个逻辑判断,如形式为(a = b)的逻辑判断,其中a 是属性,b是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树〔ID3〕的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。;使用决策树进行分类分为两步:
第1步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。
第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。
;问题的关键是建立一棵决策树。这个过程通常分为两个阶段:
建树〔Tree Building〕:决策树建树算法见下,这是一个递归的过程,最终将得到一棵树。
剪枝〔Tree Pruning〕:剪枝的目的是降低由于训练集存在噪声而产生的起伏。; 由Quinlan在80年代中期提出的ID3算法是分类规那么挖掘算法中最有影响的算法。ID3即决策树归纳〔Induction of Decision Tree〕。早期的ID算法只能就两类数据进行挖掘〔如正类和反类〕;经过改进后,现在ID算法可以挖掘多类数据。待挖掘的数据必须是不矛盾的、一致的,也就是说,对具有相同属性的数据,其对应的类必须是唯一的。在ID3算法挖掘后,分类规那么由决策树来表示。 ;1. ID3算法的根本思想
由训练数据集中全体属性值生成的所有决策树的集合称为搜索空间,该搜索空间是针对某一特定问题而提出的。系统根据某个评价函数决定搜索空间中的哪一个决策树是“最好〞的。评价函数一般依据分类的准确度和树的大小来决定决策树的质量。如果两棵决策树都能准确地在测试集进行分类,那么选择较简单的那棵。相对而言,决策树越简单,那么它对未知数据的预测性能越佳。寻找一棵“最好〞的决策树是一个NP完全问题。 ;ID3使用一种自顶向下的方法在局部搜索空间创立决策树,同时保证找到一棵简单的决策树—可能不是最简单的。
ID3算法的根本思想描述如下:
step 1.任意选取一个属性作为决策树的根结点,然后就这个属性所有的
您可能关注的文档
- 第四节各种注射给药法.pptx
- 第四节合同的履行.pptx
- 第四讲 基于能力的薪酬体系.pptx
- 第四讲 职业选择和实施规划.pptx
- 第四讲人力资源人员使用、调配与流动.pptx
- 第四讲创业教育.pptx
- 第四讲清洁生产审计.pptx
- 第四讲烟草育苗.pptx
- 第四讲生产论.pptx
- 第四讲电视编辑技术.pptx
- 2025年教师职称-贵州-贵州教师职称(基础知识、综合素质、初中美术)历年参考题典型考点含答案解析.docx
- 2025年事业单位笔试-内蒙古-内蒙古中医妇科学(医疗招聘)历年参考题典型考点含答案解析.docx
- 2025年事业单位工勤技能-山东-山东医技工二级(技师)历年参考题典型考点含答案解析.docx
- 钟表维修工组织能力考核试卷及答案.doc
- 2025年事业单位工勤技能-山东-山东机械冷加工二级(技师)历年参考题典型考点含答案解析.docx
- 2025年毕节幼儿师范高等专科学校单招笔试数学试题库含答案解析.docx
- 【历史 】北朝政治和北方民族的交融课件2025-2026学年统编版七年级历史上册.pptx
- 2025年职业技能鉴定-铁路职业技能鉴定-手工木工(高级工)历年参考题典型考点含答案解析.docx
- 2025年事业单位工勤技能-青海-青海放射技术员二级(技师)历年参考题典型考点含答案解析.docx
- 2025年事业单位工勤技能-青海-青海假肢制作装配工一级(高级技师)历年参考题典型考点含答案解析.docx
原创力文档


文档评论(0)