- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
增刊 江 西 蓝 天 学 院 学 报 Supp lem en t
2008年 10 月 JOURNAL OF J IAN GX I BLU E SKY UN IV ER SITY O ctober. 2008
基于粗糙集和遗传算法的数据挖掘方法
胡启韬 袁志平 周忠海
(江南计算技术研究所 江苏 无锡 2 14083)
摘 要 :运用粗糙集和遗传算法的理论 ,为大型的数据挖掘提供了一种新的方法 。首先通过粗糙集理论对数据进行
预处理 ,然后对属性简约 ,最后通过遗传算法进行规则提取 ,寻找最优解 。
关键词 :粗糙集 遗传算法 数据挖掘 知识发现
中图分类号 : TP36 文献标识码 : A 文章编号 : 123 (2008增 ) - 0 17 - 03
数据挖掘 [ 1 ]又称知识发现 ,是从大量的、不完全的、有 1. 2 定义 2 在知识表达系统 S 中, 对于一属性集 P
躁声的、模糊的实际数据中 ,提取隐含在其中的、人们事先 ∈A , 对象 x, y ∈U, 二元等价关系 IND (P) = { ( x, y) ∈U ×
不知道的、但又很有用的知识和信息的过程 。它的一般步 U | 所有的 a ∈P, f ( x, a) = f (y, a) } 称为 S 的不可分辨关
骤如下 :提出问题 数据准备 数据整理 建立模型 评 系 。不可分辨关系是一个等价关系, 通过一个不可分辨关
价和解释 。它是数据库研究、开发和应用最活跃的一个分 系, 可以得到一个决策系统的划分 。
支 ,是多学科的交叉领域 ,涉及数据库技术 、人工智能、机器 1. 3 定义 3 给定信息系统 S = (U, A ) , B ∈A , 对 B
学习、神经网络 、数学 、统计学 、模式识别 、知识库系统 、知识 中的属性 a, 如果 IND (B ) ≠IND (B - { a} ) , 则说属性 a是必
获取 、信息提取 、高性能计算 、并行计算 、数据可视化等多方 ( ) ( )
要的 Ind isp ensable , 否则称 a是不必要的 D isp ensable 。
面的知识 。 遗传算法 ( Gene tic A lg orithm , GA ) [ 3] 起源于对生物系
统进行的计算机模拟研究, 是模拟生物在环境中的遗传和
1 粗糙集与遗传算法的基本概念 进化过程而形成的一种 自适应优化概率搜索算法 。它的流
程主要模仿的是生物遗传进化过程中的选择 、交叉和变异
( ) [ 2 ] 操作, 从而完成对问题最优解的自适应搜索过程 。流程主要
粗糙集 Rough Set, R S 作为一种全新的数学概念 ,
为处理具有不完整 、不一致及不确定性特征的信息提供了 包括染色体编码 、产生初始群体 、计算适应度 、进化操作等
新的有效工具 ,它的主要特点之一是无须提供 问题所需处 几大部分 。
理的数据集合之外的任何先验信息 。相对于许多其他处理 遗传算法的搜索过程是从一群初始节点开始搜索, 而
不确定知识的方法来说更具客观性 ,并且和其他分析方法 不是从单一的初始点开始搜索, 这种机制意味着搜索过程
有机结合 ,进一步增强对不确定问题的处理能力 。 可以有效地跳出局部极值点 。既可以完成极值点领域 内解
1.
文档评论(0)