- 23
- 0
- 约9.62千字
- 约 69页
- 2017-11-22 发布于江苏
- 举报
第7章-数据分类
课堂练习 用ID3算法进行决策树分类。 颜色 形状 蔬菜 红 圆 番茄 紫 长 茄子 绿 长 黄瓜 ?从中得出什么直观的结论? 不给任何描述属性时,类属性分类期望信息(熵)最大,代表的不确定性最大;当给出描述属性时,对应的描述属性分类期望信息(熵)减少,不确定性降低;不同描述属性对减少类属性的不确定性贡献不同。 数据分类算法应该是尽可能选择对减少不确定性贡献最大的描述属性,而Gain(属性)表示的就是属性减少分类的不确定性程度,则Gain(属性)越大,越应该优选对应属性作为测试属性。 C4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能: 用信息增益比例的概念; 合并具有连续属性的值; 可以处理具有缺少属性值的训练样本; 通过使用不同的修剪技术以避免树的过度拟合; K交叉验证; 规则的产生方式等。 7.3 决策树分类7.3.3 C4.5算法 7.3 决策树分类7.3.3 C4.5算法 (1)信息增益比例的概念 假如以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。 其中 7.3 决策树分类7.3.3 C4.5算法 (2)合并具有连续值的属性 根据属性的值,对数据集排序; 按顺序逐一将两个相邻样本的平均值作为分割点,r=(A1+A2)/2。假设训练集有n个样本,则共有n-1个分割点。分割点将训练集划分为两部分,一部分A的值小于等于分割点,另一部分A的值大于分割点。 针对每个划分,分别计算增益比; 将最优的分割点作为临界值r。 7.3 决策树分类7.3.3 C4.5算法 (3)处理含有未知属性值的训练样本 处理方法是用最常用的值替代或者是将最常用的值分在同一类中。具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 (4)规则的产生 一旦树被建立,就可以把树转换成if-then规则。 例5 用C4.5算法进行分类。 Outlook Temperature Humidity Wind PlayTennis Sunny Hot 85 false No Sunny Hot 90 true No Overcast Hot 78 false Yes Rain Mild 96 false Yes Rain Cool 80 false Yes Rain Cool 70 true No Overcast Cool 65 true Yes Sunny Mild 95 false No Sunny Cool 70 false Yes Rain Mild 80 false Yes Sunny Mild 70 true Yes Overcast Mild 90 true Yes Overcast Hot 75 false Yes Rain Mild 80 true No (1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为{(=75 ,75)}。 (2)计算目标属性PlayTennis分类的期望信息: (3)计算outlook的splitI: (4)计算outlook的熵: outlook= ”sunny”:s11 = 2, s21 = 3, I(s11, s21)=0.971 outlook= ”overcast” :s12 = 4, s22 = 0, I(s12, s22) = 0 outlook= ”rain”:s13 = 3, s23 = 2, I(s13, s23) = 0.971 (5)计算其余属性的GainRatio: (6)选取最大的GainRatio,根据Outlook的取值,将三分枝。 (7)再扩展各分枝节点,得到最终的决策树。 Outlook? Humidity? Windy? sunny overcast rain ?75 75 true false yes yes no no yes (8)生成规则 IF outlook = ”sunny” AND humidity = “ 75” THEN playtennis = “ no” IF outlook = ”sunny” AND humidity = “ ?75” THEN playtennis = “ yes” IF outlook = ”overcast” THEN playtennis = “ yes” IF outlook = ”rain” AND windy =“ true” THEN playtennis = “ no” IF outlook = ”rain” AND windy =“ false” THEN playtennis =
您可能关注的文档
- 【教材梳理+中考夺分】2015中考(人教新课标)总复习课件:第10讲 一次函数(共47张PPT).ppt
- 【金牌中考】广东省2016中考英语第一轮复习 语法专题十五 定语从句课件.ppt
- 电力系统继电保护原理及应用1.pptx
- 【赢在课堂】2016-2017学年高中政治 第一单元 文化与生活 第二课 文化对人的影响 第二框 文化塑造人生课件.ppt
- 【甘肃中考面对面】2016中考历史 第一部分 教材知识梳理 模块二 中国近代史 第三单元 新民主主义革命的兴起.ppt
- 目标管理能力(PPT100页).ppt
- 【步步高学案导学设计】2014-2015学年高一历史人民版必修2同课异构课件:4.3 大众传播媒介的更新 1.pptx
- 七下第5单元第12课“花季中的男孩女孩”复习.ppt
- 七八好习惯益终生主题班会.ppt
- 七年级三班家长会ppt.ppt
- 山西天一大联考2025-2026学年高二上学期期末学情监测语文试题(试卷+解析).docx
- 山西忻州部分学校2025-2026学年高一上学期2月质量检测数学试题(人教B版)(试卷+解析).docx
- 山西运城市2025-2026学年高二第一学期期末调研测试数学试题(试卷+解析).docx
- 陕西省榆林市榆阳区2025-2026学年八年级上学期期末地理试题(试卷+解析).docx
- 陕西西安市碑林区2025-2026学年度第一学期期末八年级生物试题(试卷+解析).docx
- 四川省广元市苍溪县2025-2026年八年级上学期期末道德与法治试题(试卷+解析).docx
- 江苏泰州市姜堰区2025-2026学年七年级上学期1月期末数学试题(试卷+解析).docx
- 江苏省扬州市邗江区2025-2026学年九年级上学期期末考试化学试题(试卷+解析).docx
- 江西上饶市铅山县2025-2026学年第一学期期末考试八年级数学试题(试卷+解析).docx
- 江苏扬州市高邮市2025-2026学年度第一学期期末学业质量监测试题九年级英语(试卷+解析).docx
最近下载
- 尼康Nikon COOLPIX 5700 Manual说明书用户手册.pdf VIP
- 《教你如何删除群里发的图片.doc VIP
- PMF720L微机线路保护测控装置技术及使用说明书(Ver1.2).pdf VIP
- 2026年中国离网光伏发电产业现状深度调研研究报告.docx
- 2025(人教版)数学六年级下册全册教学设计.docx
- API 682-2014 离心泵和转子泵用轴封系统 第四版(中文).pdf
- 华东师大版八年级数学上册《14.2.3容易误导读者的统计图》同步练习题及答案.docx VIP
- 《从零开始学低压电工技术》,张伯虎,高清版.pdf
- 2026京东智能产发股份有限公司招股说明书.pdf VIP
- 基于交通静化理论的威海市环海路部分路段的优化设计--本科生毕业论文(设计).doc VIP
原创力文档

文档评论(0)