- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树-上-ID3_C4.5_CART_及剪枝
决策树-上;内容;决策树;决策树;决策树;ID3=C4.5=C5.0;ID3/C4.5/C5.0的分类基础;信息增益(information gain)
是指期望信息或者信息熵的有效减少量。
;信息增益率(information gain ratio)
由划分个数引起的偏置问题(划分越多=引起每个划分内部数据纯度的变化,分块越小,数据纯度可能越高=进而引起偏置问题):
设样本集S按离散属性F的V个不同的取值划分为, 共V个子集
定义Split(S, F):
则用F对S进行划分的信息增益率为:
;ID3;Day;Gain(S, Temperature) = 0.029
Gain(S, Humidity) = 0.151
Gain(S, Wind) = 0.048
由此选择根节点划分属性为outlook;参考:
/~ddd/cap6635/Fall-97/Short-papers/2.htm
/wiki/ID3_algorithm
;C4.5;C4.5-连续型属性;C4.5-缺失值;C4.5-算法步骤示意;C4.5;C5.0;CART;CART;Gini指标 (Gini index);离散属性outlook={sunny, overcast, rain}
Outlook值的子集有 =8个:{}, {sunny}, {overcast}, {rain}, {sunny, overcast}, {overcast, rain}, {sunny, rain}, {sunny, overcast, rain}
去除不代表任何分裂的集合:空集{}和全集{sunny, overcast, rain}。则基于Outlook的划分方式有3种:
分别计算每种划分的Gini指标:;CART - 分类树;CART - 分类树;CART_classification(DataSet, featureList, alpha,):
创建根节点R
如果当前DataSet中的数据的类别相同,则标记R的类别标记为该类
如果决策树高度大于alpha,则不再分解,标记R的类别classify(DataSet)
递归情况:
标记R的类别classify(DataSet)
从featureList中选择属性F(选择Gini(DataSet, F)最小的属性划分,连续属性参考C4.5的离散化过程(以Gini最小作为划分标准))
根据F,将DataSet做二元划分DS_L 和 DS_R:
如果DS_L或DS_R为空,则不再分解
如果DS_L和DS_R都不为空,节点
C_L= CART_classification(DS_L, featureList, alpha);
C_R= CART_classification(DS_R featureList, alpha)
将节点C_L和C_R添加为R的左右子节点;CART- 回归树;CART- 回归树;CART_regression(DataSet, featureList, alpha, delta):
创建根节点R
如果当前DataSet中的数据的值都相同,则标记R的值为该值
如果最大的phi值小于设定阈值delta,则标记R的值为DataSet应变量均值
如果其中一个要产生的节点的样本数量小于alpha,则不再分解,标记R的值为DataSet应变量均值
递归情况:
从featureList中选择属性F(选择phi(DataSet, F)最大的属性,连续属性(或使用多个属性的线性组合)参考C4.5的离散化过程 (以phi最大作为划分标准))
根据F,将DataSet做二元划分DS_L 和 DS_R:
如果DS_L或DS_R为空,则标记节点R的值为DataSet应变量均值
如果DS_L和DS_R都不为空,节点
C_L= CART_regression(DS_L, featureList, alpha, delta);
C_R= CART_regression(DS_R featureList, alpha, delta)
将节点C_L和C_R添加为R的左右子节点;CART;其他决策树;决策树剪枝;决策树剪枝;预剪枝;后剪枝;降低错误剪枝REP( Reduced Error Pruning);悲观错误剪枝PEP( Pessimistic Error Pruning );设原始决策树T,叶节点z,z节点训练实例个数为n_z,其中错分个数为e_z
定义误差率为:
偏向性(训练数据)
增加连续性校正:
相应的误差数:E_z = e_z + 0.5
对于子树t,误差数:
标准错误:
剪枝条件:
;基于错误剪枝EBP(Error-Based Pruning)
文档评论(0)