第二章决策树(ID3分类算法)解析.pptVIP

下载本文档

49
0
约9.91千字
约 44页
2017-01-13 发布于辽宁
举报
版权申诉

第二章决策树(ID3分类算法)解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二章决策树(ID3分类算法)解析

为解决上述问题必须进行分类分类是数据挖掘中的一种主要分析手段分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号，如：根据瓦斯状态、开采技术条件、煤层赋存状况等对危险进行分类评估根据核磁共振的结果区分肿瘤是恶性还是良性的根据星系的形状对它们进行分类划分出交易是合法或欺诈将新闻分类金融、天气、娱乐体育等熵(entropy,也称信息熵)用来度量一个属性的信息量。假定S为训练集，S的目标属性C具有m个可能的类标号值，C={C1,C2,…,Cm}，假定训练集S中，Ci在所有样本中出现的频率为 (i=1,2,3,…,m)，则该训练集S所包含的信息熵定义为：熵越小表示样本对目标属性的分布越纯，反之熵越大表示样本对目标属性分布越混乱。解答：令weather数据集为S，其中有14个样本,目标属性play ball有2个值{C1=yes, C2=no}。14个样本的分布为： 9个样本的类标号取值为yes，5个样本的类标号取值为No。C1=yes在所有样本S中出现的概率为9/14，C2=no在所有样本S中出现的概率为5/14。因此数据集S的熵为：信息增益：是划分前样本数据集的不纯程度(熵)和划分后样本数据集的不纯程度(熵)的差值。假设划分前样本数据集为S,并用属性A来划分样本集S，则按属性A划分S的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵：按属性A划分S后的样本子集的熵定义如下：假定属性A有k个不同的取值，从而将S划分为k个样本子集{S1,S2,…,Sk}，则按属性A划分S后的样本子集的信息熵为: 其中|Si|(i,=1,2,…k)为样本子集Si中包含的样本数，|S|为样本集S中包含的样本数。信息增益越大，说明使用属性A划分后的样本子集越纯，越有利于分类。以数据集weather为例，设该数据集为S，假定用属性wind来划分S，求S对属性wind的信息增益。解：(1)首先由前例计算得到数据集S的熵值为0.94； (2)属性wind有2个可能的取值{weak,strong}，它将S划分为2个子集：{S1,S2},S1为wind属性取值为weak的样本子集，共有8个样本；S2为wind属性取值为strong的样本子集，共有6个样本；下面分别计算样本子集S1和S2的熵。对样本子集S1，play ball=yes的有6个样本，play ball=no的有2个样本，则：利用属性wind划分S后的熵为：按属性wind划分数据集S所得的信息增益值为：以weather数据集为例，讲解ID3的建立过程。数据集具有属性：outlook, temperature, humidity, wind. outlook = { sunny, overcast, rain } temperature = {hot, mild, cool } humidity = { high, normal } wind = {weak, strong } 以outlook做为根结点，继续往下：思想是，以outlook的可能取值建立分支，对每个分支递归建立子树。因为outlook有3个可能值,因此对根结点建立3个分支{sunny, overcast, rain}. 那么，哪个属性用来最佳划分根结点的Sunny分支？overcast分支？Rain分支？首先对outlook的sunny分支建立子树。找出数据集中outlook = sunny的样本子集Soutlook=sunny，然后依次计算剩下三个属性对该样本子集Ssunny划分后的信息增益： Gain(Ssunny, humidity) = 0.971 Gain(Ssunny, temperature) = 0.571 Gain(Ssunny, wind) = 0.371 采用同样的方法，依次对outlook的overcast分支、rain分支建立子树，最后得到一棵可以预测类标号未知的样本的决策树。 ID3决策树对未知样本进行预测下面利用决策树对类标号未知的样本X进行预测： X={rain, hot, normal, weak, ?} ID3算法总结 ID3算法是所有可能的决策树空间中一种自顶向下、贪婪的搜索方法。 ID3搜索的假设空间是可能的决策树的集合，搜索目的是构造与训练数据一致的一棵决策树，搜索策略是爬山法，在构造决策树时从简单到复杂，用信息熵作为爬山法的评价函数。 ID3算法的核心是在决策树各级结点上选择属性，用信息增益作为属性选择的标准，使得在每个非叶节点进行测试时能获得关于被测数据最大的类别信息，使得该属性将数据集分成子集后，系统的熵值最小。优点：理论清晰，方