第65节决策树学习.pptVIP

下载本文档

2
0
约7.81千字
约 35页
2017-06-20 发布于广东
举报
版权申诉

第65节决策树学习.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第65节决策树学习

第6.5节决策树学习王庆江计算机科学与技术系 qjwang@ 概述决策树（decision tree）是描述概念空间的一种有效方法，支持多概念学习；属于基于实例的归纳学习；起源于1966年Hunt、Marin、Stone的概念学习系统CLS，CLS只能学习单个概念； 1979年，John Ross Quinlan提出了ID3算法。 84年，L. Breiman等提出Classification and regression trees（缩写CART）；分类树：预测输入的类别；衰退树：预测输入的实数值（如房价、住宿天数）。 86年，Schlimmer和Fisher对ID3进行改造，得到ID4算法； 88年，Utgoff在ID4基础上得到ID5算法； 93年， J.R. Quinlan在ID3基础上，提出了C4.5算法；无论哪种决策树算法，都是构造一棵熵值下降的树，叶子结点的熵值为0。决策树是怎么产生的？决策树是描述分类过程的一种数据结构；对根结点，引入一条分类信息，将对应根结点的数据集分为若干子集，每个子集对应根结点的一个子结点；对每个端结点引入新的分类信息，直到端结点对应的数据子集完全属于某个分类。如果每个分类信息只将结点对应的数据集一分为二，则最终的决策树是二叉树，即CART树；叶子结点代表分类（概念或决策），根到一个叶子结点的路径代表一条分类规则；例：个大∧脖短∧鼻长 =〉可能是大象规则内的各部分之间为合取关系。整个决策树代表若干规则的析取。支持多概念学习。决策树的构造和应用用一个包含若干实例的集合（即训练集），按ID3（或其他算法）产生决策树；对于一个待测实例，按其属性在决策树中搜索，找到的叶子结点就是该实例所属的类。关于信息熵的基础知识决策树构造算法一般基于信息熵理论；自信息量I(ai) 设信源X发出符号ai的概率为p(ai)，在收到ai之前，收信者对ai的不确定性定义为I(ai)，I(ai)=－logp(ai)；当 p(ai) = 1时，I(ai) = 0。信息熵H(X) 表示信源X整体的不确定性；除非信源以概率1发出唯一符号，否则，H(X) 0 。条件熵设信源为X，收信者收到信息Y，用条件熵H(X|Y)表示收信者在收到Y后对X的不确定性估计；设X的符号为ai，Y的符号为bj，p(ai|bj)表示当Y为bj时X为ai的概率，则决策树的构造根结点包含所有训练数据，且无分类信息，故熵值最大；每引入一个属性，分裂出子结点，子结点的熵值比父结点更小；训练集中各例子的类别是确定的，故叶子结点的熵为0。 6.5.2 ID3算法设实例集为S，S = {s1, s2, s3, …, sT}，T = |S|；对于有教师的学习，每个实例有明确的类别，即 s = (a1, a2, a3, …, am; μ) 若xi代表第i个属性，则每个实例代表一条规则，即 (x1=a1) ∧ (x2=a2) ∧ (x3=a3) ∧ … ∧ (xm=am) = μ 在ID3算法中，实例集S被看作离散信息系统，用信息熵表示该系统的信息量； S中的决策μ为随机事件，而属性被看作信息源；初始时，可计算S的熵：若引入属性xi，xi∈[1, m]，则可产生子集S1、S2、…、St，当然某个子集可能是空集；各子集的信息熵总量可认为是已知xi时S的条件熵，而条件熵用各子集的信息熵期望表示，即候选属性有多个时，该引入哪个呢？ ID3算法选择使总熵值下降最大的属性。如果引入属性x1，可得三个子集； S1 = {s1, s2, s3, s4, s5, s6, s7, s8} S2 = {s9, s10, s11, s12, s13, s14, s15, s16} S3 = {s17, s18, s19, s20, s21, s22, s23, s24} |{si|si∈S1, u(si)=1}|=2, |{si|si∈S1, u(si)=2}|=2, |{si|si∈S1, u(si)=3}|=4 H(S1) = - (2/8)*log(2/8) - (2/8)*log(2/8) - (4/8)*log(4/8) = 1.5 H(S2) = - (1/8)*log(1/8) - (2/8)*log(2/8) - (5/8)*log(5/8) = 1.2988 H(S3) = - (1/8)*log(1/8) - (1/8)*log(1/8) - (6/8)*log(6/8) = 1.0613 H(S|x1) = (8/24)*1.5 + (8/24)*1.2988 + (8/24)*1.0613 = 1.2867 同理，可计算引入其他属性时S的条件熵； H(S|x2) =