一种基于信息熵离散化算法的研究.pdf

下载文档 降价啦

7
0
约 3页
2017-09-01 发布于湖北
举报
版权申诉
保障服务

一种基于信息熵离散化算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于信息熵离散化算法的研究.pdf

lSSN 1009-3044 E—mail：xsjl@cccc．net．cn Compu~rKnow~edgeandTechnology电脑知识与技术 http：／／www．dnzs．net．cn Vo1．5，No．34，December2009，PP．9744—9746 Tel：+86—551—5690963 5690964 一种基于信息熵离散化算法的研究李朝鹏．成运 (湖南人文科技学院通控系，湖南娄底 417000) 摘要：该文研究连续属性的离散化问题。首先，详细介绍了基于熵的离散化算法(EBD)，并对其存在的问题进行了分析。随后，给出了用于度量区间密度的定义；接着，在自适应思想的启发下，对 EBD算法进行了改进，提出了基于熵的变阀值离散化算法，区间密度的引入使得该算法能够随样本集在区间上密度的变化适当调整熵的阀值。实验结果表明，与EBD算法相比，改进算法不仅保持简单性、一致性和精确性．而且容易操作。关键词：信息熵：自适应；离散化中图分类号：TP3O1 文献标识码：A 文章编号：1009—3044(2009)34-9744—03 AnAlgorithm ofDiscretizationBasedonEntropy LO Chao—peng，CHENG Yun (HunanUnive~ityofHumanities，ScienceandTechnology，Loudi417000，China) Abstract：Inthispaper，discretizationmethodsofcontinuousattributesareresearched．Firsfly ，weintroduceEnrtopy—BasedDiscretization algorithm (EBD)anddiscusssomelimitsinit．Secondly，theconceptsofdensityaredefined．Then，intheAdaptiveidea，weproposeanew algorithm basedontheEBD algorithm，thatcanadjustthethresholdofentropyaccordingtothevariationofhtedensiytofsampleset．At last，weapplythisalgorithm totwodatasets．Experimentalresultsshow htat，bycomparingwithEBD nadthisalgorithm ，notonlymaintains simphcity，consistencyandaccuracybutalsoiseasilyoperated． Keywords：entropy；adaptive；discretization 离散化技术用来减少连续属性值的个数，这对于使用基于决策树的分类挖掘方法非常有益。例如 ID3决策树算法，Konenko等人指出，在归纳建树阶段为一个非叶节点选择分裂属性时，使用嫡函数将偏向于取值较多的属性，所以连续型属性由于拥有较多的取值而更容易被选为分裂属性_l-2]，从而由当前节点将导出很多的分支，使下层节点中的样本数据较快地进入所谓的 “纯”状态，即节点中的样本属于同一类别，但样本个数较少，甚至只有一个样本。所以，最终生成的决策树所表示的规则缺乏适应性，这意味着规则由于支持度较低而不具有实际意义，而且不容易被用户理解。也就是说，对于决策树对应的每一条规则，能够满足该规则的数据很少，最后的结果是分类效果很差由此可见．在建立决策树之前，对连续型属性进行离散化是专分必要的’。一 1离散化算法的目标从直观的角度看，可以从以下几点3[1衡量一个离散化算法是否是成功。一 ‘● 11完全离散化：就是指算法要能够完成数据集的多个连续属性的离散化处理。因为我们不大可能只需要对数据集的某一