- 0
- 0
- 约2.65千字
- 约 50页
- 2021-10-03 发布于北京
- 举报
决策树-上;内容;决策树;决策树;决策树;ID3=C4.5=C5.0;ID3/C4.5/C5.0的分类基础;信息增益(information gain)
是指期望信息或者信息熵的有效减少量。
;信息增益率(information gain ratio)
由划分个数引起的偏置问题(划分越多=引起每个划分内部数据纯度的变化,分块越小,数据纯度可能越高=进而引起偏置问题):
设样本集S按离散属性F的V个不同的取值划分为, 共V个子集
定义Split(S, F):
则用F对S进行划分的信息增益率为:
;ID3;Day;Gain(S, Temperature) = 0.029
Gain(S, Humidity) = 0.151
Gain(S, Wind) = 0.048
由此选择根节点划分属性为outlook;C4.5;C4.5-连续型属性;C4.5-缺失值;C4.5-算法步骤示意;C4.5;C5.0;CART;CART;Gini指标 (Gini index);离散属性outlook={sunny, overcast, rain}
Outlook值的子集有 =8个:{}, {sunny}, {overcast}, {rain}, {sunny, overcast}, {overcast, rain}, {sunny, rain}, {sunny, overcast, rain}
去除不代表任何分裂的集合:空集{}和全集{sunny, overcast, rain}。则基于Outlook的划分方式有3种:
分别计算每种划分的Gini指标:;CART - 分类树;CART - 分类树;CART_classification(DataSet, featureList, alpha,):
创建根节点R
如果当前DataSet中的数据的类别相同,则标记R的类别标记为该类
如果决策树高度大于alpha,则不再分解,标记R的类别classify(DataSet)
递归情况:
标记R的类别classify(DataSet)
从featureList中选择属性F(选择Gini(DataSet, F)最小的属性划分,连续属性参考C4.5的离散化过程(以Gini最小作为划分标准))
根据F,将DataSet做二元划分DS_L 和 DS_R:
如果DS_L或DS_R为空,则不再分解
如果DS_L和DS_R都不为空,节点
C_L= CART_classification(DS_L, featureList, alpha);
C_R= CART_classification(DS_R featureList, alpha)
将节点C_L和C_R添加为R的左右子节点;CART- 回归树;CART- 回归树;CART_regression(DataSet, featureList, alpha, delta):
创建根节点R
如果当前DataSet中的数据的值都相同,则标记R的值为该值
如果最大的phi值小于设定阈值delta,则标记R的值为DataSet应变量均值
如果其中一个要产生的节点的样本数量小于alpha,则不再分解,标记R的值为DataSet应变量均值
递归情况:
从featureList中选择属性F(选择phi(DataSet, F)最大的属性,连续属性(或使用多个属性的线性组合)参考C4.5的离散化过程 (以phi最大作为划分标准))
根据F,将DataSet做二元划分DS_L 和 DS_R:
如果DS_L或DS_R为空,则标记节点R的值为DataSet应变量均值
如果DS_L和DS_R都不为空,节点
C_L= CART_regression(DS_L, featureList, alpha, delta);
C_R= CART_regression(DS_R featureList, alpha, delta)
将节点C_L和C_R添加为R的左右子节点;CART;其他决策树;决策树剪枝;决策树剪枝;预剪枝;后剪枝;降低错误剪枝REP( Reduced Error Pruning);悲观错误剪枝PEP( Pessimistic Error Pruning );设原始决策树T,叶节点z,z节点训练实例个数为n_z,其中错分个数为e_z
定义误差率为:
偏向性(训练数据)
增加连续性校正:
相应的误差数:E_z = e_z + 0.5
对于子树t,误差数:
标准错误:
剪枝条件:
;基于错误剪枝EBP(Error-Based Pruning);置信区间;概率角度
错分样本率r(t)可看成是n(t)次试验中某事件发生e(t)次的概率---二项分布
得到关于错分样本率在置信水
您可能关注的文档
- 六西格玛管理之测量.pptx
- 六西格玛黑带培训教程.pptx
- 兰州兰澳大厦项目商业部分营销策划报告_67_XXXX年.pptx
- 共好内训强效教材《如何成为优秀主管》.pptx
- 六西格玛项目管理培训课程.pptx
- 兰州城投房地产开发有限公司薪酬与绩效管理设计报告.pptx
- 共好直销广告的发送方式.pptx
- 共赢领导力之提升领导能力的五项技术.ppt
- 关于5S的思考及行动(32).pptx
- 共青团考核系统(新).pptx
- 2026年及未来5年内中国液体氩气行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国黄铜合页行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国竹工艺家具行业投资前景及策略咨询研究报告.docx
- 2025年中国微机数显自动分析仪市场调查研究报告.docx
- 2026年及未来5年内中国微尘白色粉笔行业投资前景及策略咨询研究报告.docx
- 2025年中国微电脑型压胶机市场调查研究报告.docx
- 2026年及未来5年内中国数字化等功游泳训练测试系统行业投资前景及策略咨询研究报告.docx
- 2025年中国圆形花瓶市场调查研究报告.docx
- 2026年及未来5年内中国植物纤维静淀过滤器行业投资前景及策略咨询研究报告.docx
- 2025年中国超音波手套机市场调查研究报告.docx
最近下载
- 农村电商(农产品电商)运营全套教学课件.pptx
- 四川省成都市第七中学2025-2026学年高一上学期11月半期考试英语(含答案).pdf
- (最新)ISO31073-2022风险管理术语(译2022-04)(推荐下载).pdf VIP
- (最新)村干部考试试题(含答案).docx VIP
- zippo图册年度机系列整合(更新至C25).docx VIP
- 多轴车铣复合加工运动转换方法:原理、实践与创新.docx
- 商务礼仪商务礼仪培训专用.ppt VIP
- 《铁路劳动安全》第04章预防机动车辆伤害.pptx VIP
- 化工制图第1章 制图基础.ppt VIP
- 化工制图AutoCAD应用基础-03章.pptx VIP
原创力文档

文档评论(0)