数据挖掘决策树分类.ppt

下载文档 降价啦

213
0
约1.08万字
约 104页
2017-05-03 发布于湖北
举报
版权申诉
保障服务

数据挖掘决策树分类.ppt

1、本文档共104页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘决策树分类

数据挖掘与模式识别Data Mining and Pattern Recognition ;四、决策树分类 Decision Tree Classification;OUTLINE;分类问题概述;分类问题概述;挖掘分类规则（建立分类器）;挖掘分类规则（建立分类器）;挖掘分类规则（建立分类器）;挖掘分类规则（建立分类器）;分类规则评估;分类规则应用;分类规则应用;分类问题概述;分类问题概述;分类问题概述;分类问题概述;k-近邻分类法;k-近邻分类法;例题1 设某公司现有15名员工的基本信息，包括其个子为高个、中等、矮个的分类标识。公司现刚招进一位名叫刘萍的新员工Z1，令k=5，试采用 k-NN分类算法判断员工刘萍的个子属于哪一类？ ;解：只有身高才是与个子高矮相关的属性，因此用Xi表示第i个员工的身高。首先从X中选择5个员工作为初始k-最近邻集N。不失一般性，取 N={X1=1.60，X2=2.00，X3=1.90，X4=1.88，X5=1.70} (1) 对S的X6=1.85，身高X2=2.00是N中与身高Z1=1.62差距最大的员工，且有d(Z1,X2)d(Z1,X6)，因此，在N中用X6替换X2得到 N={X1=1.60，X6=1.85，X3=1.90，X4=1.88，X5=1.70} (2) 同理，用S中X7=1.59替换N中身高距离Z1=1.62最大的员工X3=1.90，得到 N={X1=1.60，X6=1.85，X7=1.59，X4=1.88，X5=1.70} (3) 用X8=1.70替换N中距离Z1最大的员工X4=1.88 ，得到 N={X1=1.60， X6=1.85 ，X7=1.59， X8=1.70 ，X5=1.70} (4) 因为S中的X9=2.20和X10=2.10，故根据算法，N不需要改变。;(5) 用X11=1.80替换N中X6=1.85得 N={X1=1.60， X11=1.80 ，X7=1.59， X8=1.70 ，X5=1.70}； (6) 因为S中的X12=1.95，X13=1.90，X14=1.80，故N不需要改变。 (7) 用X15=1.75替换N中X11=1.80得 N={X1=1.60， X15=1.75 ，X7=1.59， X8=1.70 ，X5=1.70}； (8) 在第(7)步所得N中，有5个身高最接近Z1=1.62的员工，且其X1=1.60， X7=1.59， X8=1.70，X5=1.70这4个员工的类别都是“矮个”，仅有X15=1.75的类别是“中等”；因此，新员工Z1=刘萍的个子为矮个。;决策树分类基本概念;决策树分类基本概念;基本概念;This follows an example from Quinlan’s ID3;Training Dataset;Output: A Decision Tree for “buys_computer”;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;ID3算法;ID3算法的基本策略与核心;ID3算法的基本策略与核心;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: ;ID3算法描述之一;(4) for each Q’中的属性A do 计算信息增益gain(A,X’)； (5) 选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性； (6) for each B的取值bi do从该节点(X’, Q’)伸出分支，代表测试输出B=bi；求得X中B值等于bi的子集Xi，并生成相应的叶节点(Xi’,Q’-{B})；} (7) 转(2)；};ID3算法描述之二;ID3算法实例分析;ID3算法实例分析;解：第一步：选择S增益最大的属性构造决策树的根结点。 1、计算分类属性C的分类信息熵已知S={X1,X2,…,X14}共有14个样本点，故|S|=14，而分类属性C={是，否}={C1,C2}，即C1“是” 适宜打球，C2“否” 不宜打球， C1={X3, X4, X5, X7, X9, X10, X11, X12, X13}, C2={X1, X2, X6, X8, X14}。根据信息熵公式有 =?(0.643? (-0.637)+ 0.357?(-1.485))=0.940 2、计算每个

您可能关注的文档

文档评论（0）

shuwkb + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘决策树分类.ppt