- 8
- 0
- 约2.58千字
- 约 13页
- 2017-05-16 发布于湖北
- 举报
数据挖掘
C4.5算法
2016.04.07
决策树算法
1993年由Quilan提出的C4.5算法(对ID3的改进)
C4.5比ID3的改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。
C4.5算法优点:产生的分类规则易于理解,准确率较高。
C4.5算法缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
C4.5算法
C4.5算法
信息熵
1948年,香农提出了“信息熵”的概念,解决了对系统信息的量化度量问题。
香农认为信息的准确信息量可以用下面的信息熵公式计算:
一个系统越是有序,信息熵就越低;反之,一个系统越乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。
信息增益率
C4.5算法
与ID3不同,C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。
GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
设样本集S按离散属性F的V个不同的取值划分为,共V个子集
定义分割信息量Split(S, F):
那么信息增益率为:
C4.5算法
离散化处理:将连续
您可能关注的文档
- 酒店服务心理学第五章酒店顾客个性心理重点.ppt
- 江宁江浦高二考试生物试题-人教版[原创]重点.doc
- 酒店感动服务课程培训重点.ppt
- 酒店管理沟通培训重点.ppt
- 江苏13市2011年中考数学试题分类解析汇编 专题7统计与概率重点.doc
- 酒店客房控制系统_红外感应+门磁重点.doc
- 结核病防治知识竞赛题目及答案重点.doc
- 酒店客房种类介绍重点.pptx
- 酒店前台礼仪培训.1重点.ppt
- 酒店人力资源管理重点.ppt
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)