基于粗糙集和遗传算法的数据挖掘方法.docVIP

下载本文档

0
0
约4.21千字
约 4页
2019-08-19 发布于浙江
举报
版权申诉

基于粗糙集和遗传算法的数据挖掘方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于粗糙集和遗传算法的数据挖掘方法摘要: 运用粗糙集和遗传算法的理论,为大型的数据挖掘提供了一种新的方法。首先通过粗糙集理论对数据进行预处理, 然后对属性简约, 最后通过遗传算法进行规则提取, 寻找最优解。关键词: 粗糙集；遗传算法；数据挖掘；知识发现 Data Extraction Based on Rough Set and Genetic Algorithm Abstract: A new approach for data mining by using rough set and genetic algorithm is introduced in this article. First of all we pretreat our data with rough set, and then reduce attributes, finally we extract the best rule through genetic algorithm. Key Words: Rough Set; Genetic Algorithm; Data Extration; Knowledge Discovery 0 引言数据挖掘[1]又称知识发现, 是从大量的、不完全的、有躁声的、模糊的实际数据中, 提取隐含在其中的、人们事先不知道的、但又很有用的知识和信息的过程。它的一般步骤如下: 提出问题→数据准备→数据整理→建立模型→评价和解释。它是数据库研究、开发和应用最活跃的一个分支, 是多学科的交叉领域, 涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面的知识。 1 粗糙集与遗传算法的基本概念粗糙集( Rough Set, RS)[2]作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具, 它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。相对于许多其他处理不确定知识的方法来说更具客观性, 并且和其他分析方法有机结合, 进一步增强对不确定问题的处理能力。遗传算法( Genetic Algorithm, GA )[3]起源于对生物系统进行的计算机模拟研究, 是模拟生物在环境中的遗传和进化过程而形成的一种自适应优化概率搜索算法。它的流程主要模仿的是生物遗传进化过程中的选择、交叉和变异操作, 从而完成对问题最优解的自适应搜索过程。流程主要包括染色体编码、产生初始群体、计算适应度、进化操作等几大部分。遗传算法的搜索过程是从一群初始节点开始搜索, 而不是从单一的初始点开始搜索, 这种机制意味着搜索过程可以有效地跳出局部极值点。既可以完成极值点领域内解的求精, 也可以在整个问题空间实施探索, 得到问题全局最优解的概率大大提高。 2 粗糙集与遗传算法在数据挖掘中的应用粗糙集算法与遗传算法结合, 能有效地提高挖掘效果,具有实际应用的可行性。其基本思想是:首先通过粗糙集对信息表中的数据缺损进行处理；然后对于信息表中的数据,根据已定义的可辩识距阵,通过属性简约算法进行属性简约和知识发现；最后对知识发现的规则通过遗传算法进行优化,找出最主要的规则。主要包括以下几个方面: 2.1 数据预处理数据预处理用于对原始数据的采样、收集、整理, 对于不同途径获取来的数据不一定能够得到有效的信息, 所以数据的预处理是非常必要的。包括连续属性的离散化和不完备数据的填补, 由于粗糙集只能处理离散的数据,所以还必须对连续的数据离散化, 而属性离散化的关键在于选取合适的断点对条件属性进行划分[4],如可采用基于属性重要性的离散化算法。由于数据采集的不完整性,使数据库中很大一部分数据都存在缺失, 因此对输入的数据必须进行必要的处理如采用均值法、频率统计法等对数据进行补齐。 2.2 属性简约粗糙集处理决策表时, 数据约简是核心内容,一般是约去过剩的条件属性, 用最少的属性区分不同的决策,提供同样多的信息,使决策表的决策属性和条件属性的依赖关系不发生变化。简约后的属性集称为属性的约简集,约简集通常不唯一,找到一个信息表中的约简集不是在一个多项式时间里能够解决的问题,求最小约简集(含属性个数最少的约简集)同样是一个困难的问题,实际上它是一个NP-hard问题,因此根据已定义的可辩识距阵,有如下的属性简约算法: (1) 计算属性表的可辩识距阵。 (2) 对于可辩识距阵中的所有取值为非空集合的元素Cij建立相应的析取逻辑表达式。 (3) 将所有析取逻辑表达式进行合取运算, 得到一个合取范式。 (4) 将合取范式转换为析取范式形式。 (5) 输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果, 每个合取项中所包含