第7章-数据分类.pptVIP

  • 23
  • 0
  • 约9.62千字
  • 约 69页
  • 2017-11-22 发布于江苏
  • 举报
第7章-数据分类

课堂练习 用ID3算法进行决策树分类。 颜色 形状 蔬菜 红 圆 番茄 紫 长 茄子 绿 长 黄瓜 ?从中得出什么直观的结论? 不给任何描述属性时,类属性分类期望信息(熵)最大,代表的不确定性最大;当给出描述属性时,对应的描述属性分类期望信息(熵)减少,不确定性降低;不同描述属性对减少类属性的不确定性贡献不同。 数据分类算法应该是尽可能选择对减少不确定性贡献最大的描述属性,而Gain(属性)表示的就是属性减少分类的不确定性程度,则Gain(属性)越大,越应该优选对应属性作为测试属性。 C4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能: 用信息增益比例的概念; 合并具有连续属性的值; 可以处理具有缺少属性值的训练样本; 通过使用不同的修剪技术以避免树的过度拟合; K交叉验证; 规则的产生方式等。 7.3 决策树分类 7.3.3 C4.5算法 7.3 决策树分类 7.3.3 C4.5算法 (1)信息增益比例的概念 假如以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。 其中 7.3 决策树分类 7.3.3 C4.5算法 (2)合并具有连续值的属性 根据属性的值,对数据集排序; 按顺序逐一将两个相邻样本的平均值作为分割点,r=(A1+A2)/2。假设训练集有n个样本,则共有n-1个分割点。分割点将训练集划分为两部分,一部分A的值小于等于分割点,另一部分A的值大于分割点。 针对每个划分,分别计算增益比; 将最优的分割点作为临界值r。 7.3 决策树分类 7.3.3 C4.5算法 (3)处理含有未知属性值的训练样本 处理方法是用最常用的值替代或者是将最常用的值分在同一类中。具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 (4)规则的产生 一旦树被建立,就可以把树转换成if-then规则。 例5 用C4.5算法进行分类。 Outlook Temperature Humidity Wind PlayTennis Sunny Hot 85 false No Sunny Hot 90 true No Overcast Hot 78 false Yes Rain Mild 96 false Yes Rain Cool 80 false Yes Rain Cool 70 true No Overcast Cool 65 true Yes Sunny Mild 95 false No Sunny Cool 70 false Yes Rain Mild 80 false Yes Sunny Mild 70 true Yes Overcast Mild 90 true Yes Overcast Hot 75 false Yes Rain Mild 80 true No (1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为{(=75 ,75)}。 (2)计算目标属性PlayTennis分类的期望信息: (3)计算outlook的splitI: (4)计算outlook的熵: outlook= ”sunny”:s11 = 2, s21 = 3, I(s11, s21)=0.971 outlook= ”overcast” :s12 = 4, s22 = 0, I(s12, s22) = 0 outlook= ”rain”:s13 = 3, s23 = 2, I(s13, s23) = 0.971 (5)计算其余属性的GainRatio: (6)选取最大的GainRatio,根据Outlook的取值,将三分枝。 (7)再扩展各分枝节点,得到最终的决策树。 Outlook? Humidity? Windy? sunny overcast rain ?75 75 true false yes yes no no yes (8)生成规则 IF outlook = ”sunny” AND humidity = “ 75” THEN playtennis = “ no” IF outlook = ”sunny” AND humidity = “ ?75” THEN playtennis = “ yes” IF outlook = ”overcast” THEN playtennis = “ yes” IF outlook = ”rain” AND windy =“ true” THEN playtennis = “ no” IF outlook = ”rain” AND windy =“ false” THEN playtennis =

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档