决策树学习与SEE5的使用.pptVIP

下载本文档

88
0
约3.19千字
约 15页
2018-09-30 发布于江苏
举报
版权申诉

决策树学习与SEE5的使用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树学习与SEE5的使用

决策树学习及SEE5的使用决策树学习一、什么是决策树学习？决策树学习是一种逼近离散值目标函数的方法，这种方法将从一组训练数据中学习到的函数表示为一棵决策树。决策树学习是应用最广泛的归纳推理算法之一，已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风险的广阔领域。二、决策树的表示为了提高决策树的可读性，可以将学习到的决策树表示为多个 IF－THEN 规则。如上面的决策树可以表示成以下的规则集： Rule 1: IF Outlook=Sunny AND Humidity=High THEN No Rule 2： IF Outlook=Sunny AND Humidity=Normal THEN Yes Rule 3： IF Outlook=Overcast THEN Yes Rule 4： IF Outlook=Rain AND Wind=Strong THEN No Rule 5： IF Outlook=Rain AND Wind=Strong THEN Yes 三、决策树学习的适用问题通常决策树学习最适合具有以下特征的问题： . 事例是由一系列固定的属性（如Temperature）和它们的值（例如Hot）来描述的。例事例： Outlook=Sunny, Temperature=Hot, Humidity=High,Wind=Strong 最简单决策数学习要求每个属性取少数的离散的值（例如Hot，Mild，Cold）；扩展的算法允许处理值域为实数的属性。 . 目标函数具有离散的输出值。 . 训练数据可以包含错误。决策树学习方法对噪声数据具有很好的健壮性，无论是训练样例所属的分类错误还是描述这些样例的属性值错误。 . 训练数据可以包含缺少属性值的实例。这些问题的核心任务都是要把样例分类到各可能的离散值对应的类别中，称之为分类问题（classification problem）。四、基本的决策树学习算法 The TDIDT family tree ID3算法基本的ID3算法通过自顶向下构造决策树来进行学习。构造过程是从“那一个属性将在树的根节点进行测试？”这个问题开始的。为了回答这个问题，使用 (信息增益)来确定每一个实例属性单独分类训练样例的能力。分类能力最好的属性将被选作树的根节点的测试。然后为根节点属性的每个可能值产生一个分枝，并把训练样例排列到该属性值对应的分枝之下。然后重复整个过程，用每个分支节点关联的训练样例来选取在该点被测试的最佳属性。直到终止条件得到满足。用熵来度量训练样例的均一性即纯度 . S表示训练集合 . 分类属性有c个不同的分类值 . 则S相对于c个状态的分类的熵定义为：用信息增益来度量期望的熵降低属性A 训练集合S Values(A) 属性A的所有可能值的集合 Sv是S中属性A的值为v的子集则属性A相对样例集合S的信息增益定义为： Gain(S,A)是由于知道属性A的值而导致的期望熵减少。换句话来说，Gain(S,A)是由于给定属性A的值而得到的关于目标函数值的信息。进一步的问题其它的属性选择方法训练数据噪声处理训练数据中属性值为空的属性的处理过分拟合问题研究剪枝算法研究训练集合的选取 …… * Outlook Wind Humidity Overcast Rain Sunny High Strong Normal Weak Yes Yes No Yes No 上图绘出了一棵典型的学习到的决策树。这棵决策树根据天气情况分类“星期六上午是否适合打网球”。 CLS(1963) ACLS(1981) ID3(1979) ASSISTANT(1984) ID3(Quinlan,1979,1985)是一种自顶向下增长树的贪婪算法，在每个节点选取能最好的分类样例的属性。继续这个过程直到这棵树能完美分类训练样例，或所有的属性都已被使用过。 Hunt’s Concept Learning System framework, CLS constructs a decision tree that attempts to minimize the cost of classifying an object. ACLS(Paterson and Niblett) 是ID3的推广。允