- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗集频率约简与动态约简对不一致表分类方法
基于粗集频率约简与动态约简对不一致表分类方法
摘 要:针对不一致决策表对于信息分类精度与稳定性的不利影响,提出基于粗集理论的利用不同形式频率约简与动态约简技术相结合的信息分类方法。首先利用频率约简对不一致决策表进行一致性处理,然后利用动态约简技术对获取的一致决策表进行分类。通过测试系统计算表明,充分结合两者的优良特性,在不损失数据信息前提下,提高了不一致决策表的分类精度和稳定性。
关键字:不一致决策表;分类;动态约简;频率约简;粗糙集
中图法分类号:TP301.6 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.015
0 引言
粗糙集(rough set)理论是波兰学者Pawlak提出来的研究不精确、不确定性知识的表达、学习和归纳方法的数学工具,已广泛地应用于机器学习、知识获取、决策分析、数据挖掘、专家系统、决策支持系统、归纳推理、矛盾归结、模式识别等领域。运用Rough集理论对决策表进行约简或分类时,常会遇到两种决策表,即一致决策表和不一致决策表。由于从一致决策表中得到的决策规则都是确定的,而来自于不一致决策表的规则却存在着不确定性(即规则可能有着多个决策值或可能将新对象归类到多个决策类中),这严重影响了决策知识和对象分类的正确性。然而,由于数据采集的定义、规范以及操作等方面的原因,所得到的决策表常常是不一致的。如何消除或尽量降低不一致决策表在知识发现和数据挖掘中的负面影响,成了信息系统知识提取的重要研究问题。
文献[1]中提出,将不一致决策表分化为完全一致决策表和完全不一致决策表,采用完全一致决策表进行数据分析,这与文献[2]中提出的数据清洗方法类似。这两种方法从决策表中去掉了不一致对象,从而损失了隐含在这些对象之中的知识信息。文献[3]中,引入条件属性矩阵,定义了多种形式的频率约简(即分配约简、分布约简和最大分布约简),通过定义相应的决策矩阵,并通过条件属性矩阵与决策矩阵的计算提取相应决策规则,充分利用了系统所蕴含的信息。利用频率约简,提高了通过不一致决策表进行约简或信息分类的精确性;但产生约简的方法是标准的Rough集方法,对于新对象的分类不总是足够充分的(参看[4,5]),因为该方法没有考虑到部分的约简可能是混乱、不规则的,对于决策表随机采样的子表而言常常是不稳定的。为了提高决策表约简和分类的稳定性,文献[4,5]中提出了动态约简理论,通过随机产生众多基于决策表的子表,并在子表基础上计算约简结合,最后采用权重法来分类新对象。
本文提出利用上述不同形式频率约简与动态约简技术相结合的信息分类方法,来求取不一致决策表相应的决策约简和解决对象分类的冲突问题,从而获得较高的分类精度和分类稳定性。在该方法的基本计算流程基础上,研制了基于JAVA的RoughTool处理系统,并利用经典数据经行了测试与验证。
1 基本理论研究
经典的Rough集理论是建立在对象空间的等价类之上,采用上近似、下近似和边界的概念来分析对象空间中不能由等价关系定义的子集的性质,是一种利用三值逻辑处理不精确或不完全信息的形式化方法。在此对经典Rough不作累述,仅对频率约简与动态约简相关理论进行归纳与分析。
1.1 不一致决策表
称是一个决策系统(或决策表),其中是非空有限对象集合,是非空有限条件属性集合,为非空有限决策属性集合。当为单元素集合时,将决策系统写为。
决策表,若则称是一致的,否则是不一致的。其中表示属性集定义在上等价类。
从一致决策表中得到的决策规则都是确定的,而从不一致决策表中得到的规则是不确定。
1.2 决策表的频率约简
不一致决策表的基本特征是不满足。文献[3]中通过在Rough集中引入概率统计理论,研究Rough成员函数的统计特性,基于规则前件与后件在决策表中出现的频率,提出了几种约简形式,在不损失数据信息的情况下将不一致表转化为相应的一致表,从而给出了一个在不一致决策表上应用Rough集理论进行数据挖掘和分类的解决方案。
1.2.1 _约简
决策表,属性子集,令为其扩展决策函数,其中。显然,当都为1时,是一致的,否则是不一致的。在不一致表的条件下,对应于的规则可表示为:。
,是一个_决策约简,当且仅当是一致决策表的一个约简。
1.2.2 _约简
决策表,属性子集,定义Rough成员函数为:。令规则的自信度为
则表示以自信度归类到。最后令
,是一个_约简,当且仅当是来一致决策表的一个约简。
通过令阀值,获得对应不同取值[0,1]的_约简形式。如令对应的一致表为。
1.2.3 _约简
的决策值序列为,Rough成员分布函数,则得到
其中对
文档评论(0)