网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘 决策树分类.ppt

  1. 1、本文档共104页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 决策树分类

数据挖掘与模式识别 Data Mining and Pattern Recognition ;四、决策树分类 Decision Tree Classification;OUTLINE;分类问题概述;分类问题概述;挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);分类规则评估;分类规则应用;分类规则应用;分类问题概述;分类问题概述;分类问题概述;分类问题概述;k-近邻分类法;k-近邻分类法;例题1 设某公司现有15名员工的基本信息,包括其个子为高个、中等、矮个的分类标识。 公司现刚招进一位名叫刘萍的新员工Z1,令k=5,试采用 k-NN分类算法判断员工刘萍的个子属于哪一类? ;解:只有身高才是与个子高矮相关的属性,因此用Xi表示第i个员工的身高。 首先从X中选择5个员工作为初始k-最近邻集N。不失一般性,取 N={X1=1.60,X2=2.00,X3=1.90,X4=1.88,X5=1.70} (1) 对S的X6=1.85,身高X2=2.00是N中与身高Z1=1.62差距最大的员工,且有d(Z1,X2)d(Z1,X6),因此,在N中用X6替换X2得到 N={X1=1.60,X6=1.85,X3=1.90,X4=1.88,X5=1.70} (2) 同理,用S中X7=1.59替换N中身高距离Z1=1.62最大的员工X3=1.90,得到 N={X1=1.60,X6=1.85,X7=1.59,X4=1.88,X5=1.70} (3) 用X8=1.70替换N中距离Z1最大的员工X4=1.88 ,得到 N={X1=1.60, X6=1.85 ,X7=1.59, X8=1.70 ,X5=1.70} (4) 因为S中的X9=2.20和X10=2.10,故根据算法,N不需要改变。;(5) 用X11=1.80替换N中X6=1.85得 N={X1=1.60, X11=1.80 ,X7=1.59, X8=1.70 ,X5=1.70}; (6) 因为S中的X12=1.95,X13=1.90,X14=1.80,故N不需要改变。 (7) 用X15=1.75替换N中X11=1.80得 N={X1=1.60, X15=1.75 ,X7=1.59, X8=1.70 ,X5=1.70}; (8) 在第(7)步所得N中,有5个身高最接近Z1=1.62的员工,且其X1=1.60, X7=1.59, X8=1.70,X5=1.70这4个员工的类别都是“矮个”,仅有X15=1.75的类别是“中等”; 因此,新员工Z1=刘萍的个子为矮个。;决策树分类基本概念;决策树分类基本概念;基本概念;This follows an example from Quinlan’s ID3;Training Dataset;Output: A Decision Tree for “buys_computer”;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;ID3算法;ID3算法的基本策略与核心;ID3算法的基本策略与核心;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: ;ID3算法描述之一;(4) for each Q’中的属性A do 计算信息增益gain(A,X’); (5) 选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性; (6) for each B的取值bi do从该节点(X’, Q’)伸出分支,代表测试输出B=bi;求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});} (7) 转(2);};ID3算法描述之二;ID3算法实例分析;ID3算法实例分析;解:第一步:选择S增益最大的属性构造决策树的根结点。 1、计算分类属性C的分类信息熵 已知S={X1,X2,…,X14}共有14个样本点,故|S|=14,而分类属性C={是,否}={C1,C2},即C1“是” 适宜打球,C2“否” 不宜打球, C1={X3, X4, X5, X7, X9, X10, X11, X12, X13}, C2={X1, X2, X6, X8, X14}。 根据信息熵公式有 =?(0.643? (-0.637)+ 0.357?(-1.485))=0.940 2、计算每个

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档