一种基于信息熵离散化算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于信息熵离散化算法的研究.pdf

lSSN 1009-3044 E—mail:xsjl@cccc.net.cn Compu~rKnow~edgeandTechnology电脑知识与技术 http://www.dnzs.net.cn Vo1.5,No.34,December2009,PP.9744—9746 Tel:+86—551—5690963 5690964 一 种基于信息熵离散化算法的研究 李朝鹏.成运 (湖南人文科技学院通控系,湖南 娄底 417000) 摘要 :该文研 究连续属性的离散化 问题。首先,详细介绍 了基于熵的离散化算法(EBD),并对其存在的问题进行 了分析。随后 ,给出了 用于度量 区间密度的定义 ;接着,在 自适应思想的启发下 ,对 EBD算法进行 了改进 ,提 出了基于熵的变阀值离散化算法 ,区间密度 的引入使得该算法能够随样本集在 区间上密度的变化适 当调整熵的阀值。实验结果表明,与EBD算法相 比,改进算法不仅保持简 单性、一致性和精确性 .而且容 易操作。 关键词 :信息熵 :自适应 ;离散化 中图分类号 :TP3O1 文献标识码 :A 文章编号 :1009—3044(2009)34-9744—03 AnAlgorithm ofDiscretizationBasedonEntropy LO Chao—peng,CHENG Yun (HunanUnive~ityofHumanities,ScienceandTechnology,Loudi417000,China) Abstract:Inthispaper,discretizationmethodsofcontinuousattributesareresearched.Firsfly ,weintroduceEnrtopy—BasedDiscretization algorithm (EBD)anddiscusssomelimitsinit.Secondly,theconceptsofdensityaredefined.Then,intheAdaptiveidea,weproposeanew algorithm basedontheEBD algorithm,thatcanadjustthethresholdofentropyaccordingtothevariationofhtedensiytofsampleset.At last,weapplythisalgorithm totwodatasets.Experimentalresultsshow htat,bycomparingwithEBD nadthisalgorithm ,notonlymaintains simphcity,consistencyandaccuracybutalsoiseasilyoperated. Keywords:entropy;adaptive;discretization 离散化技术用来减少连续属性值 的个数 ,这对于使用基于决策树 的分类挖掘方法非常有益 。例如 ID3决策树算法 ,Konenko等 人指出,在归纳建树阶段为一个非叶节点选择分裂属性时,使用嫡函数将偏向于取值较多的属性 ,所 以连续型属性 由于拥有较多的 取值而更容易被选为分裂属性_l-2],从而 由当前节点将导出很多的分支,使下层节点中的样本数据较快地进入所谓的 “纯”状态,即节 点中的样本属于同一类别,但样本个数较少 ,甚至只有一个样本 。所以,最终生成的决策树所表示的规则缺乏适应性 ,这意味着规则 由于支持度较低而不具有实际意义 ,而且不容易被用户理解 。也就是说 ,对于决策树对应 的每一条规则 ,能够满足该规则的数据很 少 ,最后的结果是分类效果很差 由此可见 .在建立决策树之前 ,对连续型属性进行离散化是专分必要 的’。 一 1离散化算法的 目标 从直观的角度看 ,可以从 以下几点3[1衡量一个离散化算法是否是成功。 一 ‘● 11完全离散化 :就是指算法要能够完成数据集 的多个连续属性 的离散化处理 。因为我们不大可能只需要对数据集的某一

文档评论(0)

叶峰 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档