- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于区间类信息熵的连续属性离散化方法.pdf
236 计算机技术与应用进展·2006
基于区间类信息熵的连续属性离散化方法
阙夏胡学钢张玉红
合肥工业大学计算机与信息学院安徽合肥230009
摘要:连续属性离散化问题是数据挖掘重要的研究步骤之一。本文基于粗糙集的有关理论,提出
了一种新的连续属性离散化方法。首先提出度量属性区间离散化效果的区闻类信息熵的概念,然后根
据已有数据的取值构成候选断点区间集,在控制区间类信息熵小于给定的某个值(的前提下对相邻的
区间进行合并。最后通过实际的数据分析,说明该算法与经典的离散化算法相比,离散化效果更好,
更有利于下一步的分析_T-作。
关犍词:离散化粗糙集理论决策表区间类信息熵
口
在机器学习和数据挖掘研究领域中,已经发展了很多处理离散型数据的算法,如决策树、关联规则等
等。对于连续型数据,则需要进行离散他处理。离散化处理的结果往往会直接影响算法的处理过程与最终
效果,因此应该采用合适的离散化方法。
连续属性离散化方法很多,归纳起来主要有三种类型【1.2】:根据是否使用了类别标志,可以分成有监督
和无监督的;根据进行离散化的时间不同,可以分成全局和局部的;根据是否考虑属性之间的相互影响,
可以分成静态和动态的。
国内外学者已提出许多方法,等宽和等频是常见的无监督离散纯算法,这两种算法虽然容易实现,但
由于忽略了样本的分布信息,所以难以将离散区间边界设置在最合适的位置上,从而使它们的性能在大多
数情况下难以令人满意吼此外还有统计检验法‘”,信息熵法[3】,MD方法‘51和基于聚类的方法‘61等。这些算
法都可以归结为利用选取的断点对连续属性构成的空间进行划分,得到有限个区间,并利用数字对每个区
间进行标号。
寻求最优的离散化结果已被证明是NP完全问题…。针对带有类标的数据,本文基于粗糙集理论,提出
basedonIntervalClass.Information
了一种新的连续属性离散化方法——_DICIE(Discretization Entropy)。文
中首先介绍粗糙集中决策表的概念,接着提出度量属性区间的离散化效果的区间类信息熵的概念,然后描
述DICIE算法的具体实现步骤,最后本文通过实际的数据——学生成绩数据进行分析。表明该算法与经典
的离散化算法相比,在处理学生成绩数据时该算法更优,更有利于下一步的分析工作。
2有关概念
2.1粗糙集中决策表的定义
工具,它已广泛在人工智能、知识与数据发现、模式识别与分类、不精确数据的分析推理和发现潜在知识、
数据挖掘等方面得到了较为成功的应用。
决策表‘81是一类特殊且重要的知识表示系统,也是一种特殊的信息表,定义如下:
uD是属性集合,子
决策表是一个信息表知识表达系统S=U,R,vp,其中论域U={xl,x2,…,xnl;R--C
性,结果属性集D≠o;v=I
怍R
数,指定u中每一对象的属性值。
2.2度量属性区间离散化效果的区间类信息熵的定义
某个属性中第i个区间Ii的区问类信息熵的定义如下:
.皇C. C.
Eli(s1,s2”sm)一∑子1092子
n{ 儿I
j=l
其中k是区问中类别的个数,m为区间Ii的实例的个数。c日为区间Ii中类别为j实例的个数。从上面
只包含一个类别的实例时,EIi=0。
3离散化算法--DICIE
DICIE离散化算法具体过程描述如下:
输入:原始决策表S;
输出:离散化的决策表st。
STEPl:
(1)统计原始决策表的属性ci的取值情况,放在变量m中;
(2)根据ci的取值情况把属性c
原创力文档


文档评论(0)