- 1、本文档共104页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 决策树分类
数据挖掘与模式识别Data Mining and Pattern Recognition ;四、决策树分类
Decision Tree Classification;OUTLINE;分类问题概述;分类问题概述;挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);挖掘分类规则(建立分类器);分类规则评估;分类规则应用;分类规则应用;分类问题概述;分类问题概述;分类问题概述;分类问题概述;k-近邻分类法;k-近邻分类法;例题1 设某公司现有15名员工的基本信息,包括其个子为高个、中等、矮个的分类标识。
公司现刚招进一位名叫刘萍的新员工Z1,令k=5,试采用 k-NN分类算法判断员工刘萍的个子属于哪一类? ;解:只有身高才是与个子高矮相关的属性,因此用Xi表示第i个员工的身高。
首先从X中选择5个员工作为初始k-最近邻集N。不失一般性,取
N={X1=1.60,X2=2.00,X3=1.90,X4=1.88,X5=1.70}
(1) 对S的X6=1.85,身高X2=2.00是N中与身高Z1=1.62差距最大的员工,且有d(Z1,X2)d(Z1,X6),因此,在N中用X6替换X2得到
N={X1=1.60,X6=1.85,X3=1.90,X4=1.88,X5=1.70}
(2) 同理,用S中X7=1.59替换N中身高距离Z1=1.62最大的员工X3=1.90,得到
N={X1=1.60,X6=1.85,X7=1.59,X4=1.88,X5=1.70}
(3) 用X8=1.70替换N中距离Z1最大的员工X4=1.88 ,得到
N={X1=1.60, X6=1.85 ,X7=1.59, X8=1.70 ,X5=1.70}
(4) 因为S中的X9=2.20和X10=2.10,故根据算法,N不需要改变。;(5) 用X11=1.80替换N中X6=1.85得
N={X1=1.60, X11=1.80 ,X7=1.59, X8=1.70 ,X5=1.70};
(6) 因为S中的X12=1.95,X13=1.90,X14=1.80,故N不需要改变。
(7) 用X15=1.75替换N中X11=1.80得
N={X1=1.60, X15=1.75 ,X7=1.59, X8=1.70 ,X5=1.70};
(8) 在第(7)步所得N中,有5个身高最接近Z1=1.62的员工,且其X1=1.60, X7=1.59, X8=1.70,X5=1.70这4个员工的类别都是“矮个”,仅有X15=1.75的类别是“中等”;
因此,新员工Z1=刘萍的个子为矮个。;决策树分类基本概念;决策树分类基本概念;基本概念;This follows an example from Quinlan’s ID3;Training Dataset;Output: A Decision Tree for “buys_computer”;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;决策树分类基本概念;ID3算法;ID3算法的基本策略与核心;ID3算法的基本策略与核心;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;熵和信息增益;Class P: buys_computer = “yes”
Class N: buys_computer = “no”
I(p, n) = I(9, 5) =0.940
Compute the entropy for age:
;ID3算法描述之一;(4) for each Q’中的属性A do 计算信息增益gain(A,X’);
(5) 选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性;
(6) for each B的取值bi do从该节点(X’, Q’)伸出分支,代表测试输出B=bi;求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});}
(7) 转(2);};ID3算法描述之二;ID3算法实例分析;ID3算法实例分析;解:第一步:选择S增益最大的属性构造决策树的根结点。
1、计算分类属性C的分类信息熵
已知S={X1,X2,…,X14}共有14个样本点,故|S|=14,而分类属性C={是,否}={C1,C2},即C1“是” 适宜打球,C2“否” 不宜打球,
C1={X3, X4, X5, X7, X9, X10, X11, X12, X13}, C2={X1, X2, X6, X8, X14}。
根据信息熵公式有
=?(0.643? (-0.637)+ 0.357?(-1.485))=0.940
2、计算每个
您可能关注的文档
- AndroidBLE与终端通信(二)——AndroidBluetooth基础搜索蓝牙设备显示列表教程.doc
- AndroidBLE与终端通信(五)——GoogleAPIBLE4.0低功耗蓝牙文档解读之案例初探教程.doc
- ANDON系统操作维护说明手册正文教程.doc
- an9690x匝间冲击耐电压测试仪用户手册v1.0-07.3.22教程.doc
- AndroidMnewfeatureShowsystemUItuner教程.pptx
- Android中的Apk的加固(加壳)原理解析和实现教程.doc
- android开发环境设置和BLE驱动开发说明教程.pptx
- Android数据库框架——ORMLite轻量级的对象关系映射(ORM)Java包教程.doc
- Android蓝牙概述教程.doc
- Android手机刷机知识教程.pptx
最近下载
- 住院医师规范化培训教学活动指南(2021年版)文字版.docx
- tc helicon voicelive人声效果器中文说明书.pdf
- 高中化学知识点总结.docx VIP
- 京东集团员工手册-京东.docx
- 2024年江苏省政府采购专家库题库.docx VIP
- 电力安装三方合同协议书.docx
- 2025年汉江国有资本投资集团有限公司招聘【57人】笔试参考题库附带答案详解.docx
- 高标准农田建设项目管理.pptx
- 蒸压加气混凝土制品应用技术标准.pdf
- 部编版历史七年级上册第一单元 史前时期 中国境内早期人类与文明的起源 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
文档评论(0)