- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
论文格式参考(一种基于粗糙集的启发式属性约简算法)
一种基于粗糙集的启发式属性约简算法
学号 班级 姓名
摘要:对现有启发式属性约简算法进行分析,应用反例说明一般启发式算法求得的相对约简中仍存在冗余属性的不足。针对这一问题,提出一种改进的启发式属性约简算法。该算法以条件信息熵作为启发信息,在算法中加入消除冗余的二次约简过程,并给出一些特殊情况下的处理方法。最后通过实例分析,验证了改进的算法具有较好的约简效果。
关键词:粗糙集;条件熵;属性约简;启发式算法;核
0 引言
在海量信息系统中,其属性和实例数量非常巨大,其中的属性并不是同等重要的,甚至有的属性是冗余的,这就使属性约简变的非常必要。属性约简在保持信息系统分类和决策能力不变的前提下,可以通过其较好地剔除冗余属性,并形成精简的规则库以帮助人们做出正确且简洁的决策。
属性约简是粗糙集理论(Rough Set Theory)研究的核心内容之一。Wong.S.K.M和Ziarko.W已经从计算复杂性的角度证明了寻找最小约简是NP问题。解决这类问题的方法一般采用启发式算法,即在算法中加入启发信息,缩小搜索空间,最终得到一个最优或近似最优的解。苗夺谦[1]等利用属性的互信息作为启发信息来构造启发式算法,但该启发式算法对于求取相对约简是不完备的,即最后求得的相对约简中仍有冗余属性存在的可能。
本文通过对文献[1]启发式属性约简算法的研究,提出了二次约简的概念,对属性集进行二次约简,以消除初次约简后仍可能存在的冗余属性;并以条件熵作为启发信息,构造了一种新的启发式属性约简算法。理论分析与实验结果表明,该算法是正确、有效的。
1 粗糙集相关理论
在决策表中,人们关心的是哪些条件属性对于决策更重要,本文利用条件熵的大小作为属性重要性的度量;本节给出它的基本概念,及判断冗余属性的判定定理。
定义1 信息系统
信息系统(Information System)可由四元组S=(U,Q,V,f)表示。其中U是对象集合,即论域;Q是属性集合;V=,Vq是属性q的值域;f是一个信息函数,即对xU,qQ,有f(x,q) Vq。决策信息系统是信息系统的子集,其属性集Q=C∪D,C为条件属性集、D为决策属性集。
定义2[3] 条件熵
设U为一个论域,P、Q为U上的两个等价关系族,可以认为U上任一属性集合是定义在U上的子集组成的б-代数上的一个随机变量,其概率分布可通过如下方法来确定。
设P、Q在U上导出的划分分别为X、Y:X={X1,X2…Xn};Y={Y1,Y2…Ym};则P、Q在U的子集组成的б-代数上定义的概率分布为:
; ;
其中p(Xi)=|Xi|/|U|,i=1,2…n;p(Yj)=|Yj|/|U|,j=1,2…m;符号|E|表示集合E的基数。知识(属性集合)Q相对于知识(属性集合)P的条件熵定义为:
.
其中 p(Yj|Xi)=|Yj∩Xi|/|Xi|, i=1,2…,n; j=1, 2…m.
条件熵H(Q|P∪{a})的值越小,说明在已知属性集P的条件下,属性a对于属性集Q越重要。
定理[3] 设U为一个论域,P是U上的一个条件属性集合,D是决策属性集,且论域U是在P上相对于D一致的,则P中的一个属性a是P相对于决策属性集D冗余的充分必要条件为H(D|P)=H(D|P—{a})。
2 文献[1]算法的讨论
2.1算法的描述与不足
该算法是一种基于互信息的知识相对约简算法,从条件属性集C相对于决策属性集D的核开始,利用互信息作为启发信息逐步增加不可缺少的属性,从而得到C相对D的一个相对约简。下面是该算法的具体步骤:
算法1
step1 计算决策表T中条件属性C与决策属性D的互信息I(C,D);
step2 计算C相对于D的核C0= CORED(C);
一般来说,I(C0,D)<I(C,D);有时C0=,则I(C0,D)=0;
step3 令B=C0,对条件属性集C—B重复:
①对每个属性pC—B,计算条件互信息I(p, D|B);
②选择使条件互信息I(p, D|B)最大的属性,记作p(若同时有多个属性达到最大值,则从中选取一个与B的属性值组合数最少的属性作为p);并且BB∪{p};
③若I(B,D)=I(C,D),则终止;否则,转①;
step4 最后得到的B就是C相对于D的一个约简。
上述算法通过互信息作为启发信息来缩小搜索空间,提高了算法的效率,最终得到一个最优或近似最优解。但是该算法存在一些不足之处:如(1)通过该算法求得的相对约简中可能还存在一些冗余属性,下面将会通过反例来加以说明;(2)在step2中求得C相对于D的核C0= CORED(C),没有先对I(C0,D)与I(C,D)的值进行比较。若相等则程序应该结束,输出相对约
您可能关注的文档
- 第二单元生产劳动与经营单元检测.doc
- 第二次全国土地调查数据库更新标准.doc
- 第二章气固相催化反应宏观动力学-第四版.doc
- 第二章第2节气压带和风带新人教版必修1.doc
- 第二章核辐射传感器09.doc
- 第二次清华大学微积分习题课资料_399402821.docx
- 第3章大气环流.doc
- 第二章第1节冷热不均引起大气运动学案1新人教版必修1.doc
- 第二章钢结构的连接文档.doc
- 第二章地球上的大气(单元检测).doc
- 2023-2024学年江苏省徐州市泉山区苏教版四年级下册期中考试数学试卷(含答案解析).pdf
- 2024年天津市和平区中考二模数学试题(含答案解析).pdf
- 2024北京市平谷区中考一模数学试题(含答案解析).pdf
- 2024年广西桂林市中考一模考试数学试题(含答案解析).pdf
- 2024年新疆维吾尔自治区吐鲁番市中考二模数学试题(含答案解析).pdf
- 湖南师范大学附属中学2024届高三下学期模拟(二)数学试卷(含答案解析).docx
- 2024年四川省成都市武侯区中考二诊数学试题(含答案解析).pdf
- 2024年重庆市大渡口区中考数学第二次适应性试题(含答案解析).pdf
- 2024年浙江省宁波市中考数学模拟试题(含答案解析).pdf
- 2024年山西省临汾市多校联考中考二模数学试题(含答案解析).docx
文档评论(0)