决策树-上-ID3_C4.5_CART_及剪枝.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树-上-ID3_C4.5_CART_及剪枝

决策树-上;内容;决策树;决策树;决策树;ID3=C4.5=C5.0;ID3/C4.5/C5.0的分类基础;信息增益(information gain) 是指期望信息或者信息熵的有效减少量。 ;信息增益率(information gain ratio) 由划分个数引起的偏置问题(划分越多=引起每个划分内部数据纯度的变化,分块越小,数据纯度可能越高=进而引起偏置问题): 设样本集S按离散属性F的V个不同的取值划分为, 共V个子集 定义Split(S, F): 则用F对S进行划分的信息增益率为: ;ID3;Day;Gain(S, Temperature) = 0.029 Gain(S, Humidity) = 0.151 Gain(S, Wind) = 0.048 由此选择根节点划分属性为outlook;参考: /~ddd/cap6635/Fall-97/Short-papers/2.htm /wiki/ID3_algorithm ;C4.5;C4.5-连续型属性;C4.5-缺失值;C4.5-算法步骤示意;C4.5;C5.0;CART;CART;Gini指标 (Gini index);离散属性outlook={sunny, overcast, rain} Outlook值的子集有 =8个:{}, {sunny}, {overcast}, {rain}, {sunny, overcast}, {overcast, rain}, {sunny, rain}, {sunny, overcast, rain} 去除不代表任何分裂的集合:空集{}和全集{sunny, overcast, rain}。则基于Outlook的划分方式有3种: 分别计算每种划分的Gini指标:;CART - 分类树;CART - 分类树;CART_classification(DataSet, featureList, alpha,): 创建根节点R 如果当前DataSet中的数据的类别相同,则标记R的类别标记为该类 如果决策树高度大于alpha,则不再分解,标记R的类别classify(DataSet) 递归情况: 标记R的类别classify(DataSet) 从featureList中选择属性F(选择Gini(DataSet, F)最小的属性划分,连续属性参考C4.5的离散化过程(以Gini最小作为划分标准)) 根据F,将DataSet做二元划分DS_L 和 DS_R: 如果DS_L或DS_R为空,则不再分解 如果DS_L和DS_R都不为空,节点 C_L= CART_classification(DS_L, featureList, alpha); C_R= CART_classification(DS_R featureList, alpha) 将节点C_L和C_R添加为R的左右子节点;CART- 回归树;CART- 回归树;CART_regression(DataSet, featureList, alpha, delta): 创建根节点R 如果当前DataSet中的数据的值都相同,则标记R的值为该值 如果最大的phi值小于设定阈值delta,则标记R的值为DataSet应变量均值 如果其中一个要产生的节点的样本数量小于alpha,则不再分解,标记R的值为DataSet应变量均值 递归情况: 从featureList中选择属性F(选择phi(DataSet, F)最大的属性,连续属性(或使用多个属性的线性组合)参考C4.5的离散化过程 (以phi最大作为划分标准)) 根据F,将DataSet做二元划分DS_L 和 DS_R: 如果DS_L或DS_R为空,则标记节点R的值为DataSet应变量均值 如果DS_L和DS_R都不为空,节点 C_L= CART_regression(DS_L, featureList, alpha, delta); C_R= CART_regression(DS_R featureList, alpha, delta) 将节点C_L和C_R添加为R的左右子节点;CART;其他决策树;决策树剪枝;决策树剪枝;预剪枝;后剪枝;降低错误剪枝REP( Reduced Error Pruning);悲观错误剪枝PEP( Pessimistic Error Pruning );设原始决策树T,叶节点z,z节点训练实例个数为n_z,其中错分个数为e_z 定义误差率为: 偏向性(训练数据) 增加连续性校正: 相应的误差数:E_z = e_z + 0.5 对于子树t,误差数: 标准错误: 剪枝条件: ;基于错误剪枝EBP(Error-Based Pruning)

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档