决策树-上-ID3_C4.5_CART_及剪枝.pptx

下载文档 降价啦

37
0
约2.71千字
约 50页
2017-06-23 发布于湖北
举报
版权申诉
保障服务

决策树-上-ID3_C4.5_CART_及剪枝.pptx

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树-上-ID3_C4.5_CART_及剪枝

决策树-上;内容;决策树;决策树;决策树;ID3=C4.5=C5.0;ID3/C4.5/C5.0的分类基础;信息增益（information gain）是指期望信息或者信息熵的有效减少量。 ;信息增益率（information gain ratio）由划分个数引起的偏置问题（划分越多=引起每个划分内部数据纯度的变化，分块越小，数据纯度可能越高=进而引起偏置问题）：设样本集S按离散属性F的V个不同的取值划分为，共V个子集定义Split(S, F)：则用F对S进行划分的信息增益率为： ;ID3;Day;Gain(S, Temperature) = 0.029 Gain(S, Humidity) = 0.151 Gain(S, Wind) = 0.048 由此选择根节点划分属性为outlook;参考： /~ddd/cap6635/Fall-97/Short-papers/2.htm /wiki/ID3_algorithm ;C4.5;C4.5-连续型属性;C4.5-缺失值;C4.5-算法步骤示意;C4.5;C5.0;CART;CART;Gini指标 (Gini index);离散属性outlook={sunny, overcast, rain} Outlook值的子集有 =8个：{}, {sunny}, {overcast}, {rain}, {sunny, overcast}, {overcast, rain}, {sunny, rain}, {sunny, overcast, rain} 去除不代表任何分裂的集合：空集{}和全集{sunny, overcast, rain}。则基于Outlook的划分方式有3种：分别计算每种划分的Gini指标：;CART - 分类树;CART - 分类树;CART_classification(DataSet, featureList, alpha,)：创建根节点R 如果当前DataSet中的数据的类别相同，则标记R的类别标记为该类如果决策树高度大于alpha，则不再分解，标记R的类别classify(DataSet) 递归情况：标记R的类别classify(DataSet) 从featureList中选择属性F（选择Gini(DataSet, F)最小的属性划分，连续属性参考C4.5的离散化过程(以Gini最小作为划分标准)）根据F，将DataSet做二元划分DS_L 和 DS_R：如果DS_L或DS_R为空，则不再分解如果DS_L和DS_R都不为空，节点 C_L= CART_classification(DS_L, featureList, alpha); C_R= CART_classification(DS_R featureList, alpha) 将节点C_L和C_R添加为R的左右子节点;CART- 回归树;CART- 回归树;CART_regression(DataSet, featureList, alpha, delta)：创建根节点R 如果当前DataSet中的数据的值都相同，则标记R的值为该值如果最大的phi值小于设定阈值delta，则标记R的值为DataSet应变量均值如果其中一个要产生的节点的样本数量小于alpha，则不再分解，标记R的值为DataSet应变量均值递归情况：从featureList中选择属性F（选择phi(DataSet, F)最大的属性，连续属性（或使用多个属性的线性组合）参考C4.5的离散化过程 (以phi最大作为划分标准)）根据F，将DataSet做二元划分DS_L 和 DS_R：如果DS_L或DS_R为空，则标记节点R的值为DataSet应变量均值如果DS_L和DS_R都不为空，节点 C_L= CART_regression(DS_L, featureList, alpha, delta); C_R= CART_regression(DS_R featureList, alpha, delta) 将节点C_L和C_R添加为R的左右子节点;CART;其他决策树;决策树剪枝;决策树剪枝;预剪枝;后剪枝;降低错误剪枝REP( Reduced Error Pruning);悲观错误剪枝PEP( Pessimistic Error Pruning );设原始决策树T，叶节点z，z节点训练实例个数为n_z，其中错分个数为e_z 定义误差率为：偏向性（训练数据）增加连续性校正：相应的误差数：E_z = e_z + 0.5 对于子树t，误差数：标准错误: 剪枝条件： ;基于错误剪枝EBP(Error-Based Pruning)