一种基于聚类划分并行粗糙集属性值约简算法.docVIP

下载本文档

8
0
约4.53千字
约 10页
2018-08-15 发布于福建
举报
版权申诉

一种基于聚类划分并行粗糙集属性值约简算法.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于聚类划分并行粗糙集属性值约简算法

一种基于聚类划分的并行粗糙集属性值约简算法　　摘要：将MATLAB模糊工具箱和粗糙集数据处理工具Rosetta结合在一起使用，提出一种基于模糊C聚类划分的并行粗糙集属性值约简算法，将数据集划分到一个个子系统中处理，大大提高了约简的效率。采用聚类算法进行划分，将相似度高的规则放到一个簇中，便于约简，同时由于不同簇的相异程度较高，可以采用直接合并的方式进行全局选择。　　关键词：粗糙集；属性值约简；聚类；并行　　中图法分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）12-0176-03 　　A Parallel Rough Set Attribute Value Reduction Algorithm Based on Clustering Partition 　　CHEN Yan-yun1 ，XIAO Kun-nan1， QIU jian-lin2 　　（1.Nantong University Engineering Training Center， Nantong 226019，China；2.College of Computer Science and Technology， Nantong University， Nantong 226019，China）　　Abstract： Adopt the parallel idea into rough set attribute value reduction， diving the data set into several sub-systems and processing at the same time， which greatly improve the reduction efficiency. Using clustering division to put the high similarity rules into a cluster to reduce easily， meanwhile， the difference between different clusters contributes to merger directly in global section. Apply the algorithm to corn breeding and it performs better. 　　Key words： rough set； attribute value reduction； clustering； parallel 　　粗糙集是由波兰科学家Z.Pawlak[1]提出的一种处理不确定、不精确、不完整信息的新的数据挖掘工具，并从中发现隐含的知识，揭示潜在的信息。与人工智能领域其他一些处理不确定问题的数学工具相比，粗糙集有着它自身的优点。比如统计理论需要知道数据先验概率、模糊集理论需要知道隶属函数等，而粗糙集无需提供问题所需处理的数据集合之外的任何先验信息，避免了带入人为的模糊性，从而更具客观性，这一优点也决定它成为分析不精确系统的一种理想方法。　　约简是粗糙集理论的核心问题，可以作为大规模数据集处理的预处理工具，为进一步的数据挖掘工作做准备。约简包括属性约简和属性值约简。属性约简是删除冗余的或不重要的属性，是一个横向约简，目前关于粗糙集属性约简的研究已经比较成熟。但属性约简后的数据集还不是最简的，属性值约简实际就是除去多余的属性值，用较少的条件属性来区分每个决策类，从而得到最简的规则集。目前已经提出了一些属性值约简算法，比较经典的是文献[2]，它根据删除某个属性值后决策表出现的不同状况标记不同的符号，并对不同的符号用不同的处理方法，从而删除冗余的记录。此外，还有黄燕等[3]提出的基于相似矩阵的约简算法，以及张学斌等[4]提出的启发式的属性值约简算法等等。　　本文在常规属性值约简算法的基础上，用并行的思想来处理约简。决策表的每一行代表一条规则，采用基于聚类的划分思想，将相似度较高的规则放到一个簇中，这样容易产生冗余或矛盾，并且由于簇与簇之间的相异度较大，因而在全局选择时，就将个子系统约简后的规则之间合并得到最终结果。　　1 基础知识　　定义1：知识表达系统S可以表示为四元组，即S=（U， A， V， f）。其中，U是一个有限的非空集合，称为论域；A=[C?D]是属性集合，C是条件属性，D为决策属性，[C?D=φ，V=a∈AVa]，性值的集合；f ： U [×]A [→]V 是一个信息函数，它为每个对象赋予一个信息值。在粗糙集理论中，知识表达系统又被称为信息系统，通常用S=（U，A）表示[2]。　　定义2：设S=（U，A）为一信息系统，[B?A]，则不可分辨关系表示如下：