基于相对熵的决策表连续属性离散化算法_计算机论文.docVIP

下载本文档

7
0
约 7页
2017-08-23 发布于北京
举报
版权申诉

基于相对熵的决策表连续属性离散化算法_计算机论文.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于相对熵的决策表连续属性离散化算法_计算机论文.doc

基于相对熵的决策表连续属性离散化算法_计算机论文基于相对熵的决策表连续属性离散化算法_计算机论文摘要该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化. 该算法易于理解，计算简单, 算法的时间复杂性为O(3kn2)。关键词　相对熵互信息连续属性离散化决策表1 引言波兰科学家Pawlak提出的粗糙集(Rough set)理论[1，2]是一种新型的处理模糊和不确定知识的数学工具,目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应用。在运用粗糙集理论处理决策表时,要求决策表中的值用离散数据表示.如果某些条件属性或决策属性的值域为连续值(如浮点数),则在处理前必须进行离散化处理,而且即使对于离散数据,有时也需要通过将离散值进行合并(抽象)得到更高抽象层次的离散值[2]。该文形式化地描述了决策表的离散化问题,利用相对熵定义了属性的重要性度量，提出了基于相对熵的决策表离散化算法,并分析了该算法的时间复杂度，最后用例子说明该算法的离散化过程。 2　基本概念应用粗糙集理论实现知识获取和数据分析通常是对决策表进行处理,为此首先给出决策表的定义. 定义1.　一个决策表是一个由四元组T=(Ｕ,Ｒ,Ｖ,ｆ)构成的知识表达系统,其中Ｕ是对象的集合,也称为论域.Ｒ=Ｃ∪Ｄ是属性的集合,子集Ｃ和Ｄ分别被称为条件属性集和决策属性集. V = 是属性的取值范围构成的集合,其中Ｖr是属性ｒ的值域.ｆ:Ｕ×Ｒ→Ｖ是信息函数,它指定Ｕ中每一个对象各个属性的取值.Ｄ≠Φ. 在本文讨论中假设决策属性值为离散值,连续属性变量仅出现在条件属性中,不失一般性,以下仅考虑单个决策属性的决策表。 2.1离散化问题的描述设T=(Ｕ,Ｒ,Ｖ,ｆ)是一个决策表,其中Ｕ={ｘ1,ｘ2,…,ｘｎ}为论域,Ｒ=Ｃ∪{ｄ}, C ={C1 , C2,…,Ck} 为条件属性集合|C|=k,{d}为决策属性，设决策种类的个数为r(d)。属性a的值域Va =[l a,ra]上的一个断点可记为(a,c) ,其中a∈R,c为实数值。在Va=[la ,ra]上的任意一个断点集合：Da ={(a,c1a),(a,c2a),…,(a ,ckaa)}定义了Va上的一个分类Pa ： Pa ={[c0a,c1a)，[c1a,c2a)，…，[ckaa,cka+1a]} la = c0ac1ac2a… cka +1a= ra Va =[c0a,c1a]∪[c1a,c2a]∪…∪[ckaa,cka+1a] 断点集合Da将属性ａ的取值分成kａ+1个等价类，这里每一个cka就称为一个断点，离散化的目的就是对所有连续属性都找到适宜的断点集, 因此,任意的P = 定义了一个新的决策表: Tp=(U,R,Vp,fp)，f p(xa)=if(xa)∈[cia,ci+1a] 对于x∈U,i∈{0,1,2,…,Ka},即经过离散化之后,原来的决策表被新的决策表所代替,且不同的断点集将同一决策表转换成不同的新决策表。从粗糙集的观点看,离散化的实质是在保持决策表分类能力不变,即条件属性和决策属性相对关系不变的条件下,寻找合适的分割点集,对条件属性构成的空间进行划分。评价属性离散化的质量,主要看分割点的选择和多少,以及保持信息系统所表达的样本之间的“不可分辨关系”。最优离散化, 即为决策表寻找最小(最优) 的断点集是一个NP-hard 问题,为此必须寻找某种启发式算法，人们提出了许多启发式算法，可参考文献[2，3]，该文利用决策属性相对于条件属性的相对熵作为启发式算法。 2.2 知识的信息量和相对熵下面将信息论中信息量和相对熵[4-6]的概念引入到信息系统中。定义2[5，6] 设K=(U，R)是一近似空间,R在U上的划分(等价关系)为U/IND(R) ={R1,R2,…,Rn}, 知识(属性集合)R 的信息量(也称为信息熵)定义为: ；其中 =U-Ri,|Ri|/|U|表示等价类Ri在论域U上的可能性(概率)，||/|U|表示Ri的余集在论域U上的可能性, 也即不属于Ri的概率。定义3[6] 设U为论域，K1=(U，P)和K2=(U，Q)是关于U的两个知识库，U/IND(P)= {X1,X2,…,Xn}, U/IND(Q)={Y1,Y2,…,Ym}, 知识(属性集合)Q相对于知识(属性集合)P 的相对熵E(Q|P)定义为: P与Q的互信息定义为：定义中用“相对熵”概念,而不用“条件熵”,完全是式子中已经没有了条件概率的意义.另外,定义中使用余集来表示,纯粹是为了定理的证明时简便,实际