- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RS理论中连续属性的离散化方法
苗夺谦 王 迁
(山西大学) (中国科学院自动化研究所)
摘要 传统的RS理论只能对离散属性进行处理,而绝大多数现实的数据库既包含了离
散属性,又包含了连续属性。本文利用决策表相容性的反馈信息,提出了一种领域独立的
墓于动态层次聚类的连续属性离散化算法。该方法为RS理论处理离散与连续属性提供了
一种统一的框架,从而极大地拓广了RS理论的应用范围。通过一些例子将本算法与现有
方法进行了比较分析,得到令人鼓舞的结果。
关键词 RoughSet理论、离散化、动态层次聚类
1.引言
Pawlak.Z提出的RoughSet(RS)理论是一种新的处理不精确、不确定知识的数学理论
川[7)。该理论为处理离散属性提供了一种很好的工具,但遗撼的是它不能直接处理连续
属性。而绝大多数现实的数据库既包含了离散属性,同时又包含了连续属性。因此,传统
RS理论的应用范围是很有限的[81。将RS理论拓广到能够处理连续属性,这既是RS理论
发展的要求,也是实际应用的需要· _._
在目前己有的文献中,归纳起来有三种处理连续属性的方法。为了便于做对比分VT.
现分别介绍如下:
(I)s方法:Slowinski.K在文[[9]中研究医疗诊断决策表的rough分类时,遇到了连续
属性的问题。要利用RS理论处理这类数据,就必须将它们转换成定性词汇,象 “低”、
“中”、 “高”等。在医疗诊断的实践中,这种转换通常是根据专家的经验标准来完成的。
然后,对定性词汇用数字0,1,2,-二进行编码。Slowinski.K是利用专家提供的领域知识进行
连续属性离散化的。
(2)H方法:Hu.X.H[4]把连续属性的离散化看作是面向属性的泛化问题。泛化是通过
该属性的概念树进行的。概念树是由领域专家事先提供的。如果对该属性没有提供高层概
念,这时,该算法将这个属性删除。
(3)L方法:Lenarcik.A在文[5)中,把原信息系统看成是随机信息系统。在此基础上,
定义了离散(划分)质量的期望值E以Ul,,一,Uk)。算法以属性的一个初始离散化(一般是
将区间等间隔分割)开始。在以后的每一步中,总是删除使得E以U,,...,Uk)增量最大的
分点;直到删除每个剩余分点时,划分质量的值不再增加,算法停止。这种方法类似于线
性规划中参数的后向删除,导出的是次优结果。
本文利用决策表相容性的反馈信息,提出了一种领域独立的基于动态层次聚类的连续
属性离散化算法。我们说明、只要对距离函数及闲值适当定义,那么,Pawlak关于离散 ‘
’本文得到国家高技术课题863项1l的资助
- 839-
属性等价类的定义便是本算法的特例。也就是说,本方法为RS理论处理离散与连续属性
提供了一种统一的框架。通过一些例子将本算法与现有方法进行了比较分析,得到令人鼓
舞的结果。
2.基于动态层次聚类的连续属性离散化算法
设T=U,CuD,V,f是一个决策表,其中U二{{xl,...,x.),C、D分别为条
件与决策属性集。令CEC为一连续属性,凡二[a,bl.
本节我们将给出一种基于动态层次聚类的离散化算法。首先对算法作些定性分析,论
域U中的所有对象x;在某连续属性。上的取值C(xj)可以看作是随机采集的一组数据。
那么,对这组数据可以根据某种相似度进行聚类分析,从而得到关于U的一种划分。对
于一个决策表而言,如果条件属性的划分较粗,则可能导致划分后的决策表不相容;如果
划分较细,则可能使划分后的决策表中仍然含有很多冗余信息,使得约简率较低。对于连
续型决策表,由于各属性取很多不同的值,一般来说,它应是相容的。因此,离散后的决
策表一般应保持其相容性。故我们对连续属性离散化的目标是:在保证划分后决策表的相
容性的前提下,寻找使得约简效率最高的划分。
所谓层次聚类算法,就是根据某种聚类准则(如误差平方和准则)将n个样本逐步分成
k类(kn)。对于聚类分析来说,当相似性测度确定之后,影响聚类大小的就是闽值了。由
上面的分析知道,可以通过划分后决策表的相容性反馈信息,来逐步调整阖值,从而得到
连续属性的理想划分。
因为本文对决策表的属性是
文档评论(0)