ID3算法的合理性证明及实验分析.pdfVIP

下载本文档

26
0
约7.33千字
约 4页
2017-07-20 发布于北京
举报
版权申诉

ID3算法的合理性证明及实验分析.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2008年 1O月保定学院学报 0ct．2008 第 21卷第4期 JOURNALOFBAODINGUNIVERSITY VoL21No-4 文章编号：1674—2494(2008)04—0024—40 ID3算法的合理性证明及实验分析左吉峰l，，乔均俭 (1．河北大学数学与计算机学院，河北保定 071002；2．河北农业大学理学院，河北保定 071001) 摘要：研究一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系，从理论上证明一个属性的某几个属性值并的权熵之和不小于该属性单个属性值的权熵之和．为ID3算法的合理性提供理论基础．实验结果证明结论正确．关键词：信息熵；ID3算法；决策树；条件属性；决策属性中图分类号：1’P3O1．6 文献标识码：A 决策树 IJ-5】方法是应用最广的归纳推理算法表1 相对于目标概念PlayTennis的训练样例之一．ID3算法是一种典型的决策树归纳算法，它是Quinlan6[1首先提出的．其核心思想是利用信息熵原理171，选择信息熵最小的属性作为分类属性，递归地拓展决策树的分枝，完成决策树的构，产生出一组分类规则．其中属性的熵定义为该属性单个属性值的权熵之和，在生成树的过程中，每个结点只有一个属性值(权熵相同的属性值看作一个属性值)，其优点是采用自顶向下不回溯的策略搜索全部的属性空间，其建立决策树的算法简单，难度小，分类速度快．以表1为例，表1中有l4个训练样例，每个样例含有4个分类属性，Outlook，Temperature，Wind，Humidit及 1 个决策属性PlayTennis．根据ID3算法，可生成图1 中的决策树．产生出如下的分类规则：规则l：如果Outlook=Sunny，且Humidity= Normal，则适合打球；规则2：如果Outlook=Sunny，且Humidity= High，则不适合打球；规则3：如果Outlook=Overcast，则适合打球；规则4：如果Outlook=Rain，且Wind=Weak，则适合打球；规则5：如果，Outlook=Rain，且Wind=Strong，则不适合打球．本文首先研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和 N 的关系，得出了如下结论：一个属性的某几个属图1 由表1生成的决策树收稿日期：20o8一o6—3O 基金项目：河北农业大学非生命学科与新兴学科科研发展基金(FSY200739) 作者简介：左吉峰(1979一)，男，河北邢台人，河北大学硕士研究生，河北农业大学助教左吉峰，乔均俭：ID3算法的合理性证明及实验分析性值并的权熵之和不小于该属性单个属性值的权熵之和．然后通过在Pima数据库的实验，证明结论的正确性，从而为ID3算法的合理性提供了理论基础和例证． 1 准备知识定义1信息熵是信息的一种不确定性程度的度量，设系统s具有概率分布p={p}(0≤p≤1)，i=1，2，…，n，则系统S的信息熵(Shannonentropy)定义为 E(s)一∑Plnp．在二类分类问题中，给定一个集合S，假设Js是由目标值为正的样例或目标值为负的样例组成，则集合s90 熵为E(s)=-p+log~p+--P—log2p一，其中p+是正例在中所占的比例，P一是反例在中所占的比例． ID3算法原理设训练样例子集PⅣ含有P个正例和n个反例，则一个例子属于正例集朋的概率为—L ，属于 p+n 反例集^ 的概率为 ·决策树可以看作正例与反例集的信息源，因而产生这些信息的期望信息为 l(p．n)-一 l0g2( )一 l0 (