基于区间类信息熵的连续属性离散化方法.pdfVIP

基于区间类信息熵的连续属性离散化方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于区间类信息熵的连续属性离散化方法.pdf

236 计算机技术与应用进展·2006 基于区间类信息熵的连续属性离散化方法 阙夏胡学钢张玉红 合肥工业大学计算机与信息学院安徽合肥230009 摘要:连续属性离散化问题是数据挖掘重要的研究步骤之一。本文基于粗糙集的有关理论,提出 了一种新的连续属性离散化方法。首先提出度量属性区间离散化效果的区闻类信息熵的概念,然后根 据已有数据的取值构成候选断点区间集,在控制区间类信息熵小于给定的某个值(的前提下对相邻的 区间进行合并。最后通过实际的数据分析,说明该算法与经典的离散化算法相比,离散化效果更好, 更有利于下一步的分析_T-作。 关犍词:离散化粗糙集理论决策表区间类信息熵 口 在机器学习和数据挖掘研究领域中,已经发展了很多处理离散型数据的算法,如决策树、关联规则等 等。对于连续型数据,则需要进行离散他处理。离散化处理的结果往往会直接影响算法的处理过程与最终 效果,因此应该采用合适的离散化方法。 连续属性离散化方法很多,归纳起来主要有三种类型【1.2】:根据是否使用了类别标志,可以分成有监督 和无监督的;根据进行离散化的时间不同,可以分成全局和局部的;根据是否考虑属性之间的相互影响, 可以分成静态和动态的。 国内外学者已提出许多方法,等宽和等频是常见的无监督离散纯算法,这两种算法虽然容易实现,但 由于忽略了样本的分布信息,所以难以将离散区间边界设置在最合适的位置上,从而使它们的性能在大多 数情况下难以令人满意吼此外还有统计检验法‘”,信息熵法[3】,MD方法‘51和基于聚类的方法‘61等。这些算 法都可以归结为利用选取的断点对连续属性构成的空间进行划分,得到有限个区间,并利用数字对每个区 间进行标号。 寻求最优的离散化结果已被证明是NP完全问题…。针对带有类标的数据,本文基于粗糙集理论,提出 basedonIntervalClass.Information 了一种新的连续属性离散化方法——_DICIE(Discretization Entropy)。文 中首先介绍粗糙集中决策表的概念,接着提出度量属性区间的离散化效果的区间类信息熵的概念,然后描 述DICIE算法的具体实现步骤,最后本文通过实际的数据——学生成绩数据进行分析。表明该算法与经典 的离散化算法相比,在处理学生成绩数据时该算法更优,更有利于下一步的分析工作。 2有关概念 2.1粗糙集中决策表的定义 工具,它已广泛在人工智能、知识与数据发现、模式识别与分类、不精确数据的分析推理和发现潜在知识、 数据挖掘等方面得到了较为成功的应用。 决策表‘81是一类特殊且重要的知识表示系统,也是一种特殊的信息表,定义如下: uD是属性集合,子 决策表是一个信息表知识表达系统S=U,R,vp,其中论域U={xl,x2,…,xnl;R--C 性,结果属性集D≠o;v=I 怍R 数,指定u中每一对象的属性值。 2.2度量属性区间离散化效果的区间类信息熵的定义 某个属性中第i个区间Ii的区问类信息熵的定义如下: .皇C. C. Eli(s1,s2”sm)一∑子1092子 n{ 儿I j=l 其中k是区问中类别的个数,m为区间Ii的实例的个数。c日为区间Ii中类别为j实例的个数。从上面 只包含一个类别的实例时,EIi=0。 3离散化算法--DICIE DICIE离散化算法具体过程描述如下: 输入:原始决策表S; 输出:离散化的决策表st。 STEPl: (1)统计原始决策表的属性ci的取值情况,放在变量m中; (2)根据ci的取值情况把属性c

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档