决策树C4.5算法重点.pptxVIP

  • 8
  • 0
  • 约2.58千字
  • 约 13页
  • 2017-05-16 发布于湖北
  • 举报
数据挖掘 C4.5算法 2016.04.07 决策树算法 1993年由Quilan提出的C4.5算法(对ID3的改进) C4.5比ID3的改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法优点:产生的分类规则易于理解,准确率较高。 C4.5算法缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 C4.5算法 C4.5算法 信息熵 1948年,香农提出了“信息熵”的概念,解决了对系统信息的量化度量问题。 香农认为信息的准确信息量可以用下面的信息熵公式计算: 一个系统越是有序,信息熵就越低;反之,一个系统越乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。 信息增益率 C4.5算法 与ID3不同,C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。 GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F) 设样本集S按离散属性F的V个不同的取值划分为,共V个子集 定义分割信息量Split(S, F): 那么信息增益率为: C4.5算法 离散化处理:将连续

文档评论(0)

1亿VIP精品文档

相关文档