一类决策树ID3改进算法剖析.docVIP

下载本文档

2
0
约6.03千字
约 11页
2018-11-08 发布于福建
举报
版权申诉

一类决策树ID3改进算法剖析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一类决策树ID3改进算法剖析

一类决策树ID3改进算法剖析　　摘要摘要：对经典决策树算法ID3的分类属性信息熵进行简化计算，主要使用等价无穷小概念和2阶麦克劳林展开公式实现简化，结果较粗糙。针对这一不足，在介绍ID3算法的基础上，使用数学分析方法对此类算法进行讨论和分析，并作出了相应改进。　　关键词关键词：决策树； ID3；分类属性；信息熵　　DOIDOI：10.11907/rjdk.1511366 　　中图分类号：TP312 　　文献标识码：A文章编号文章编号2016）002003003 　　0引言　　决策树是一种重要的数据挖掘技术，是从机器学习领域发展而来的一种函数逼近分类方法[19]。随着人工智能研究的深入，对决策树算法进行改进，尤其是经典决策树算法ID3改进，成为研究热点[1014]。　　1ID3算法及其基本概念　　1.1ID3算法　　ID3具体算法如下[15]。　　输入：ID3（Examples，Target_attri，Attri），Examples即训练样例集，Target_attri是决策树要预测的目标属性，Attri是除去目标属性之外供学习的决策树测试的属性列表。　　输出：一棵能正确分类给定Examples的决策树Root。　　（1）创建树的Root结点　　（2）如果Examples都为正例，则返回label = + 的单结点树Root 　　（3）如果Examples都为反例，返回label = - 的单结点树Root 　　（4）如果Attri为空，返回单结点树Root，label = Examples中最普遍的Target_attri值。否则，执行（5）。　　（5）A ← Attri中分类Examples能力最好的属性；Root的决策属性 ← A；对于A的每个可能值vi：　　在Root下加一个新的分支对应测试 A = vi；　　②令Examplesvi为Examples中满足A属性值为vi的子集；　　③如果Examplesvi为空，则在此新分支下加一个叶子结点，结点的label = Examples中最普遍的Target_attri值；否则，在此新分支下加一个子树ID3 （Examplesvi，Target_attri，Attri - |A|）。　　（6）结束。　　（7）返回Root。　　在算法（1）处所描述的分类能力最好的属性为具有最高信息增益的属性。　　1.2信息熵与信息增益　　确定分类能力最好的属性需要用到ID3算法中规定的信息熵和信息增益。（1）信息熵。ID3算法认为，对于一个拥有n个反例和p个正例的样例集合S而言，能对其进行正确分类的决策树的信息量为：　　I（p，n）=-pp+nlog2pp+n-np+nlog2np+n（1）　　若以属性A作为当前样例集S的根，并设A有v个值v1，v2，…，vv，并将S分为对应的v个子集S1，S2，…，Sv，且某子集Si中含有Pi个正例和Ni个反例，规定Si的信息熵为：　　E（Si）=-PiPi+Nilog2PiPi+Ni-NiPi+Nilog2NiPi+Ni（2）　　规定以属性A为根进行分类的信息熵为：E（A）=∑vi=1pi+niP+NE（Si）（3）　　（2）信息增益。ID3中规定，信息增益最大的属性A可评为分类最好属性，其定义式为：　　Gain（A）=I（p，n）-E（A）（4）综合式（1）～式（4），可以推知在当前样例集下，属性A的信息增益最大时，其信息熵E（A）最小。　　2一类ID3改进算法　　在众多ID3改进算法中，比较典型的有两种，主要对前述公式中比较复杂的对数函数进行简化。　　2.1用等价无穷小进行代换　　文献[16]根据等价无穷小理论，利用当x很小时公式ln（1+x）≈x，作如下化简：　　lnpini+pi=ln（1-nini+pi）≈-nini+pi（5）　　lnnini+pi=ln（1-pini+pi）≈-pini+pi（6）　　在忽略常数的情况下，有：　　E（A）=∑vi = 1（-pi lnpi ni + pi -ni lnni ni + pi ）≈2∑vi = 1ni pi ni + pi （7）　　文献[16]中，通过使用∑vi = 1ni pi ni + pi （省略常系数2）计算每个属性的“平均熵”，并选出其值最小的属性作为决策树的目标属性。　　2.2展开到2阶麦克劳林展开公式　　文献[17]利用在x→0时，ln（1+x）在x0=1处的2阶麦克劳林展开公式x-x2/2，并在认定pini+pi1、nini+pi1的条件下给出公式：　　lnpini+pi=ln（1-nini+pi）