- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树ID3算法课件
决策树 ID3算法;8.5 决策树 ;设 sij 是子集 Sj 中类 Ci 的样本数。根据由A划分成子集的熵或期望信息由下式给出:
其中, 是第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,
其中, 是 Sj 中的样本属于类 Ci 的概率。
在A上分枝将获得的编码信息是 。
Gain(A)称为信息增益,它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。;例:构造决策树。
下表给出了取自AllElectronics顾客数据库元组训练集。;解:由题意可知:
s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=9,s2=5,p1=9/14,p2=5/14。
①计算对给定样本分类所需的期望信息:
②计算每个属性的熵。
先计算属性“年龄”的熵。
对于年龄=“=30”:s11=2,s21=3,p11=2/5,p21=3/5,
对于年龄=“31…40”: s12=4,s22=0,p12=4/4=1,p22=0,
;对于年龄=“40”:s13=3,s23=2,p13=3/5,p23=2/5,
如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(年龄)=I(s1,s2) - E(年龄)=0.246。
计算“收入”的熵。
对于收入=“高”: s11=2,s21=2,p11=0.5,p21=0.5,
对于收入=“中等”: s12=4,s22=2,p12=4/6,p22=2/4,
;对于收入=“低”: s13=3,s23=1,p13=3/4,p23=1/4,
如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(收入)=I(s1,s2) - E(收入)=0.940-0.911=0.029。
计算“学生”的熵。
对于学生=“是”:s11=6,s21=1,p11=6/7,p21=1/7,
;对于学生=“否”: s12=3,s22=4,p12=3/7,p22=4/7,
如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(学生)=I(s1,s2) - E(学生)=0.940-0.789=0.151。
计算“信用等级”的熵。
对于信用等级=“一般”: s11=6,s21=2,p11=6/8,p21=2/8,
对于信用等级=“良好”: s12=3,s22=3,p12=3/6,p22=3/6,;如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(信用等级)=I(s1,s2) - E(信用等级)=0.940-0.892=0.048。
由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支。样本据此划分,如图所示。
;收入;收入;对于收入=“中等”: s12=1,s22=1,p12=1/2,p22=1/2,
对于收入=“低”: s13=1,s23=0,p13=1,p23=0,
如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(收入)=I(s1,s2) - E(收入)=0.971-0.0.4=0.571。
;计算“学生”的熵。
对于学生=“是”:s11=2,s21=0,p11=1,p21=0,
对于学生=“否”: s12=0,s22=3,p12=0,p22=1,
如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增
您可能关注的文档
- 人教版高中历史必修一第一单元课件.ppt
- 人教版选修7_unit1_Living_well课件.ppt
- 人教版英语七下册Unit 11 Section B课件.ppt
- 人教英语必修三unit2workbook课件.ppt
- 人教版英语初一上unit 7--育英科技 王衡英语课件.ppt
- 人教英语九上教案 Section A课件.ppt
- 人教版英语选修六Unit3课件.ppt
- 人民代表大会制度.ppt课件.ppt
- 人民大学国学院国学销售手册课件.ppt
- 人文地理 第二章 第二讲课件.ppt
- 特种作业煤矿安全作业试题及完整答案详解【夺冠】.docx
- 2025特种作业煤矿安全作业考试黑钻押题(原创题)附答案详解.docx
- 特种作业煤矿安全作业考前冲刺练习(考点提分)附答案详解.docx
- 特种作业煤矿安全作业通关考试题库及参考答案详解【完整版】.docx
- 2025特种作业煤矿安全作业考前冲刺练习试题及1套参考答案详解.docx
- 特种作业煤矿安全作业检测卷及答案详解【名校卷】.docx
- 特种作业煤矿安全作业全真模拟模拟题含完整答案详解【全优】.docx
- 2025特种作业煤矿安全作业考前冲刺练习试题附完整答案详解(典优).docx
- 2025特种作业煤矿安全作业试题带答案详解(达标题).docx
- 特种作业煤矿安全作业真题及答案详解【全优】.docx
最近下载
- 配电箱采购合同协议书范本详细(2025年).docx VIP
- 部编版语文写字表六年级上册字帖.pdf VIP
- (高清版)B/T 24421.1-2023 服务业组织标准化工作指南 第1部分:总则.pdf VIP
- 2022年洛阳理工学院教师招聘笔试试题及答案解析.docx VIP
- 城市停车设施规划导则.docx VIP
- 天然气发电厂-燃气-蒸汽联合循环发电机组PPT课件.pptx VIP
- 《《中文核心期刊目录(2017年版)》》.doc VIP
- 基孔肯雅热防控技术指南(2025年版)测试题及参考答案.docx VIP
- 工程测量技术 电子水准仪 电子水准仪.ppt VIP
- 党支部贯彻落实八项规定扎实推进作风建设工作专题党课ppt课件.pptx VIP
文档评论(0)