数据仓库与数据挖掘课件110
第7章 信息论方法(2) 7.2. 5 C4.5方法 7.3 决策规则树方法 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。 C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。 C4.5构造决策树的算法 设T为数据集,类别集合为{C1,C2,…,Ck},选择一个属性V把T分为多个子集。设V有互不重合的n个取值{v1,v2,…,vn },则T被分为n个子集T1,T2,…,Tn ,这里Ti中的所有实例的取值均为vi。 令:|T|为数据集T的例子数,|Ti|为v=vi的例子数,|Cj|= freq(Cj,T),为Cj类的例子数,|Cjv|是V=vi例子中,具有Cj类别例子数。 (1)类别的信息熵 (2)类别条件熵 按照属性V把集合T分割,分割后的类别条件熵为: (3)信息增益(gain),即互信息 (4)属性V的信息熵 (5)信息增益率 C4.5对ID3改进是用信息增益率来选择属性。 理论和实验表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,主要是克服了I
您可能关注的文档
- 循环流化床锅炉原理-第一章-序论.ppt
- 微机原理211微处理器.ppt
- 微波技术与天线课件32.ppt
- 微粒之间的相互作用力离子键共价键苏教版.ppt
- 微观经济学第2讲-需求供给与均衡价格理论2012.ppt
- 微观经济学第三章7物流、信息.ppt
- 微观经济学范里安版第八章、斯勒茨基方程.ppt
- 微观经济学西方经济学第四章生产论全面.ppt
- 微观经济学课件chap4生产理论.ppt
- 心心相印,你来比划我来猜词语.ppt
- (2026)医院评审筹备与科室标准化建设工作总结(2篇).docx
- 2026年资质年检自查报告(2篇).docx
- 2026水库自查报告(2篇).docx
- 2026年北师大版适配小升初历史寒假衔接卷重大事件因果分析标准试卷第473套(含答案解析与可打印作答区).docx
- 河北唐山市2026年高三下学期第一次模拟演练物理试卷(解析版).pdf
- 六年级上册Unit 2物理练习:第2课时单词拼写与选择题.pdf
- 湖北省襄阳市第四中学2025-2026学年高三上学期教学质量检测(二)物理(II)试题(解析版).pdf
- 湖北省随州市六校2026年高三下学期一模物理试题(解析版).pdf
- 湖北省襄阳市枣阳二中2025-2026学年高三上学期一模物理试题(解析版).pdf
- 湖北省襄阳市枣阳二中2025-2026学年高三上学期一模物理试题(解析版).docx
原创力文档

文档评论(0)