- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗集理论的知识发现及其农业应用研究·
乔克智淮晓永熊范纶
(中国科学院台肥智能机械研究所台肥230031)
摘 要
数据发掘是耳前国际上的一个重要研究方向,本文提出了一种基于R棚曲Sets的动态数据约简
及知识笈现方法.该方法能有效提高巨型数据库的教据约简及知识发现的运算效率,并具有一定的抗
噪声能力.文章坯介绍了利用该算法的一种数据发掘工具DⅧ峪的开发.该工具实现丁基手数据库
的知识发现‘KDD)的一些主要过程.此外作者对DMRS中数据缺损、离教化等过程也作了介绍.
关键词粗集,动态约简,差别矩阵,数据发掘
中嗣法分类号TP311.52
1引言
Rough
Sets
全信息的问题提供了一种新型的数学工具,近年来已引起人工智能界的极大关注。Rough
冀一舅萝 理论目前已被应用于机器学习、数据挖掘等领域,并取得了很大的成功。
。 2基于差别矩阵的动态数据约简及知识发现方法
RoughSets能够有效地用于数据约简及知识发现,基于差别矩阵的数据约简及知识发现方
法是其中的一种非常有效的方法。但常规常规的方法不能用于处理数据量庞大的信息系统.本
文提出了一种基于差别矩阵的数据动态约简及知识发现的方法.它能够有效的引入背景知识及
对大型信息系统进行知识发现,并克服原有方法对噪声敏感的问题。其基本思想首先对信息表
中的数据缺损进行处理;然后按照一定的策略对连续属性进行离散化处理:再通过背景知识采
取一定的抽样策略.从大型信息表中抽取一郭分样本作为子信息表;接着对该子信息表寻找其
等价类,并构建其差别矩阵;再利用基于差别矩阵的方法进行属性约简和知识发现;然后把经
过约简的信息表和发现的规则用原信息表中的剩余数据进行测试,检查其不一致性,如果不一
舅¨¨≥啦“;;r一-一l’一。 致性小于一个背景知识给定的阈值d,则该信息表即为原信息表的一个约简,发现的规则是寄
效规则;否则增大抽样个数,重新进行上述处理壹至满足要求时为止。
从上面所述可以看出利用这种方法可以有效地减少运算量,特别是当信息袁数据量庞大时
能够极大地降低算法的实现难度;此外它还有一个非常突出的优点是能够有效地抗噪声,抽样
1_警、., 策略的选取及阚值d的变化都能改变其抗噪声能力的强弱,这对原有算法对噪声敏感的阔囊来
H 讲是一个较大的改进。
定义对一个信息系统≠;U,A,H,属性集B£A
sH,这里 oji一
Man-ix)为:胁(B)=如“bJ蔓f,J
薹雾毒
+国家自然科学基金重点项目资助 :0。
收稿日期:1999-07..08
.磐 望型型墅型煎——————————皇堡
∽斗EJj磊丽杀裟鬻需攀一}
其中[8廿e2j],产,.Z…。k是连续属性口经过离散化后的区间a如果信息系统为决策表·则属性
B应不包含决策属性D,即8nD=≯。
可以看出,差别矩阵的项实际上是由区别等价类薯和弓的属性项组成的-基于差月婚E阵的
数据动态约简算法如下:
A辔∞枷㈣,数据动态约简
文档评论(0)