模式识别决策树分类.ppt

下载文档

0
0
约2.03千字
约 12页
2025-02-07 发布于广东
举报
版权申诉
保障服务

模式识别决策树分类.ppt

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模式识别决策树分类数据实例PlayTennis数据库片段：第2页,共12页，星期六，2024年，5月决策树实例关于PlayTennis的决策树：第3页,共12页，星期六，2024年，5月决策树学习算法的代表早在1986年的时候，Quinlan就提出了著名的ID3算法。（PublishedonMLJ）用ID3算法长树的基本思想：分类能力最好的属性被测试并创建树的根结点测试属性每个可能的值产生一个分支训练样本划分到适当的分支形成儿子结点重复上面的过程，直到所有的结点都是叶子结点两个问题：什么属性最好？什么结点才是叶子结点？第4页,共12页，星期六，2024年，5月信息增益（InformationGain）属性A划分样本集S的信息增益Gain(S,A)为：Gain(S,A)=E(S)–E(S,A)其中，E(S)为划分样本集S为c个类的熵；E(S,A)为属性A划分样本集S导致的期望熵。第5页,共12页，星期六，2024年，5月熵（Entropy）划分样本集S为c个类的熵E(S)为：其中，pi＝ni/n，为S中的样本属于第i类Ci的概率，n为S中样本的个数。第6页,共12页，星期六，2024年，5月期望熵（ExpectedEntropy）属性A划分样本集S导致的期望熵E(S,A)为：其中，Values(A)为属性A取值的集合；Sv为S中A取值为v的样本子集，Sv={s?S?A(s)=v}；E(Sv)为将Sv中的样本划分为c个类的信息熵。|Sv|/|S|为Sv和S中的样本个数之比。第7页,共12页，星期六，2024年，5月回味ID3算法ID3算法每一步选择具有最大信息增益的属性作为测试属性来长树。直到最大的信息增益为也零为止。（两个问题的解决）熵（Entropy）刻画了样本集的纯度，长树的过程是一个熵降低、信息增益、从混沌到有序的过程。（长树的物理意义）第8页,共12页，星期六，2024年，5月伪代码算法Decision_Tree（samples,attribute_list）输入由离散值属性描述的训练样本集samples；候选属性集合atrribute_list。输出一棵决策树。方法(1)创建节点N；(2)ifsamples都在同一类C中then(3)返回N作为叶节点，以类C标记；(4)ifattribute_list为空then第9页,共12页，星期六，2024年，5月伪代码（续）(5)返回N作为叶节点，以samples中最普遍的类标记；//多数表决(6)选择attribute_list中具有最高信息增益的属性test_attribute；(7)以test_attribute标记节点N；(8)foreachtest_attribute的已知值v//划分samples(9)由节点N分出一个对应test_attribute=v的分支；(10)令Sv为samples中test_attribute=v的样本集合；//一个划分块(11)ifSv为空then(12)加上一个叶节点，以samples中最普遍的类标记；(13)else加入一个由Decision_Tree(Sv,attribute_list–test_attribute)返回的节点。第10页,共12页，星期六，2024年，5月ID3算法的不足及改进ID3算法存在的主要不足：过度拟合问题(treeprunning)处理连续属性值问题(discretization)处理缺少属性值问题(replacement)属性选择的度量标准问题(heuristicmeasure)针对这些不足，Quinlan做了一系列的改进，并于1993年形成了C4.5算法。（C4.5:ProgramsforMachineLearning）第11页,共12页，星期六，2024年，5月决策树学习总结决策树（DecisionTree）学习是以样本为基础的归纳学习方法，它采用自顶向下的递归方式来构造决策树。（贪心算法）决策树的表现形式是类似于流程图的树结构，在决策树的内部结点进行属性值测试，并根据属性值判断由该结点引出的分支，最后在决策树的叶子结点分类。（学习阶段、训练阶段）由训练样本集学到决策树后，为了对未知样本分类，需要在决策树上测试未知样本的属性值。测试路径由根结点到某个叶子结点，叶子结点代表的类就是未知样本所属的类。（工作阶段、测试阶段