ID3改进算法研究.docxVIP

下载本文档

0
0
约2.36千字
约 5页
2019-03-27 发布于贵州
举报
版权申诉

ID3改进算法研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ID3改进算法研究

ID3改进算法研究　　摘要：ID3算法是构造决策树的一种经典算法，传统的ID3算法存在很多??题，研究者提出了多种改进算法。简要概述基于粗糙集、粒计算和分类矩阵的ID3改进算法，通过实验分析对比3种改进算法的优势和不足，并对ID3算法的应用前景提出展望。　　关键词：ID3算法；决策树；改进算法　　DOIDOI：/　　中图分类号：TP312　　文献标识码：A 文章编号文章编号：1672--0021-04　　0 引言　　分类是一种重要的数据分析形式，是数据挖掘中最常用的方法之一，是提取刻画重要数据类的模型。决策树是分类方式之一，它构造简单，不需要设置参数，可以处理高维数据。决策树分类采用树的表示形式较为直观，学习和归纳的步骤简单且快速，因此很容易被人理解和接受。　　在决策树构造算法中，ID3算法的应用最为广泛，但同时也有许多缺点。ID3算法更倾向于选择属性值较多的属性作为根节点[1-4]，对于数据量较大的数据集，该方法可能会失效[5-8]，而且非类别属性越多，需要计算的时间也会急剧增加，并且分类的速度和精确度也大大降低[9-11]。此外，ID3算法对噪声数据比较敏感[12]。为了解决这些问题，近年来许多专家学者致力于ID3算法研究，提出了多种改进和优化的ID3算法，使得ID3算法更加完善，效率也更提高。其中，研究较为广泛的有：基于粗糙集的ID3算法改进、基于粒计算的ID3算法改进、基于分类矩阵的ID3算法改进等。本文将介绍ID3算法的基本原理，重点介绍基于粗糙集、粒计算、分类矩阵的ID3改进算法，并分析对比3类ID3改进算法。　　1 ID3算法理论　　ID3算法是J?Ross Quinlan于1986年提出的非回溯方法，其中决策树以自顶向下递归的分治方式构造[13]。以信息论为基础，引入属性选择度量的概念，将给定训练元组的数据分区划分成最纯的，即每个分区的所有元组都属于相同的类。　　ID3算法采用信息增益作为属性选择度量，这里引入熵和期望信息的概念。　　设数据分区为N类，属标号为a，且定义a个不同的类Mi。设Mi，N是N中Mi类元组集合，|N|和|Mi，N|分别为N和Mi，N中元组个数。则熵为：　　Info=-∑ai=1pilog2　　若对元组N进行元组划分，将N划分为v个子集{D1，D2，...，Dv}，则Dj包含D中的元组，理想状态下，每个分区都是纯的，则期望信息为：　　InfoA=∑vj=1DjD×Info　　需要的期望信息越小，分区的纯度越高。　　信息增益为：　　Gain=Info-InfoA　　2 ID3算法改进　　基于粗糙集的ID3算法改进　　波兰数学家Z?Pawlak教授[14-16]于1982年提出粗糙集理论数据挖掘方法。基于粗糙集技术的改进算法是一种完全数据驱动的归纳算法。针对ID3算法倾向于选取属性值较多的属性作为根节点的问题，翟俊海[17]等提出基于粗糙集的决策树归纳。　　基于粗糙集的ID3算法描述如下：　　输入：决策表，其中，C={a1，a2，...，am}，决策属性D的取值为VD={d1，d2，...，dn}；　　输出：决策树。　　算法伪代码如下：　　步骤1：计算决策表关于决策属性的分类：π={X1，X2，...，Xn}。其中，Xi=[x]di，i=1，2，...，n。　　步骤2：for { for { 计算Xj的重要度 } 计算π 的重要度 }　　步骤3：计算aj=argmax1≤i≤msgiai）。　　步骤4：计算aj在U中的划分。　　步骤5：for {　　如果Ui中类别属于同一类，结束计算；　　否则，对于Ui重复步骤2―步骤5； }　　在基于信息熵的ID3算法中，生成的子树会出现重复现象，甚至有些属性在某一路径上被检验许多次，当出现对分类无关属性较多时，生成的决策树结构性差。丁春荣等[18]提出一种利用属性加权分类粗糙度作为新的启发式函数构造决策树的方法，并用变精度粗糙集进行优化，提高了分类的效率和效果，王越等[19]也采用了变精度粗糙集进行优化。章晓等[20]基于粗糙集理论及凹函数性质，引入函数重要度概念，从理论上分析多值偏向问题，并分析了属性多值对属性重要度的影响。离散化方法的连续值决策树归纳在选择扩展属性时，需要度量每一个属性的每一个割点的分类不确定性，通过割点的不确定性选择扩展属性，但这一方法的计算时间复杂度高。翟俊海等[21]提出基于相容粗糙集技术的连续值属性决策树归纳方法，该方法利用相容粗糙集技术选择扩展属性，然后找出该属性的最优割点，分割样例集，并递归构建决策树。　　基于粒计算的ID3算法改进　　信息粒度化的思想由Zadeh[22]提出，后来Yao等[23]在此基础上进行了粒计算的研究。周浩等[24]提出基