- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于信息熵离散化算法的研究.pdf
lSSN 1009-3044 E—mail:xsjl@cccc.net.cn
Compu~rKnow~edgeandTechnology电脑知识与技术 http://www.dnzs.net.cn
Vo1.5,No.34,December2009,PP.9744—9746 Tel:+86—551—5690963 5690964
一 种基于信息熵离散化算法的研究
李朝鹏.成运
(湖南人文科技学院通控系,湖南 娄底 417000)
摘要 :该文研 究连续属性的离散化 问题。首先,详细介绍 了基于熵的离散化算法(EBD),并对其存在的问题进行 了分析。随后 ,给出了
用于度量 区间密度的定义 ;接着,在 自适应思想的启发下 ,对 EBD算法进行 了改进 ,提 出了基于熵的变阀值离散化算法 ,区间密度
的引入使得该算法能够随样本集在 区间上密度的变化适 当调整熵的阀值。实验结果表明,与EBD算法相 比,改进算法不仅保持简
单性、一致性和精确性 .而且容 易操作。
关键词 :信息熵 :自适应 ;离散化
中图分类号 :TP3O1 文献标识码 :A 文章编号 :1009—3044(2009)34-9744—03
AnAlgorithm ofDiscretizationBasedonEntropy
LO Chao—peng,CHENG Yun
(HunanUnive~ityofHumanities,ScienceandTechnology,Loudi417000,China)
Abstract:Inthispaper,discretizationmethodsofcontinuousattributesareresearched.Firsfly ,weintroduceEnrtopy—BasedDiscretization
algorithm (EBD)anddiscusssomelimitsinit.Secondly,theconceptsofdensityaredefined.Then,intheAdaptiveidea,weproposeanew
algorithm basedontheEBD algorithm,thatcanadjustthethresholdofentropyaccordingtothevariationofhtedensiytofsampleset.At
last,weapplythisalgorithm totwodatasets.Experimentalresultsshow htat,bycomparingwithEBD nadthisalgorithm ,notonlymaintains
simphcity,consistencyandaccuracybutalsoiseasilyoperated.
Keywords:entropy;adaptive;discretization
离散化技术用来减少连续属性值 的个数 ,这对于使用基于决策树 的分类挖掘方法非常有益 。例如 ID3决策树算法 ,Konenko等
人指出,在归纳建树阶段为一个非叶节点选择分裂属性时,使用嫡函数将偏向于取值较多的属性 ,所 以连续型属性 由于拥有较多的
取值而更容易被选为分裂属性_l-2],从而 由当前节点将导出很多的分支,使下层节点中的样本数据较快地进入所谓的 “纯”状态,即节
点中的样本属于同一类别,但样本个数较少 ,甚至只有一个样本 。所以,最终生成的决策树所表示的规则缺乏适应性 ,这意味着规则
由于支持度较低而不具有实际意义 ,而且不容易被用户理解 。也就是说 ,对于决策树对应 的每一条规则 ,能够满足该规则的数据很
少 ,最后的结果是分类效果很差
由此可见 .在建立决策树之前 ,对连续型属性进行离散化是专分必要 的’。
一
1离散化算法的 目标
从直观的角度看 ,可以从 以下几点3[1衡量一个离散化算法是否是成功。 一 ‘●
11完全离散化 :就是指算法要能够完成数据集 的多个连续属性 的离散化处理 。因为我们不大可能只需要对数据集的某一
文档评论(0)