- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RS理论中连续属性的离散化方法
苗夺谦 王珏
(山西大学) (中国科学院自动化研究所)
摘要 传统的RS理论只能对离散属性进行处理,雨绝大多数现实的数据库既包禽了离
散属性,又包含了连续属性。本文利用决策表相容性的反馈信息,提出了一种领域独立的
基于动态层次聚类的连续属性离散化算法。该方法为RS理论处理离散与连续属性提供了
一种统一的框架,从而极大地拓广了Rs理论的应用范围。通过一些例子将本算法与现有
方法进行了比较分析,得到令人鼓舞的结果。
Set理论、离散化、动态层次聚类
关键词 Rouga
1.引亩
Pawlak.Z提出的RoughSet(RS)理论是一种新的处理不精确、不确定知识的数学理论
f1][7l。该理论为处理离散属性提供了一种很好的工具,但遗憾的是它不能宜接处理连续
属性。而绝大多数现实的数据库既包含了离散属性,同时又包含了连续属性。因此,传统
RS理论的应用范围是报有限的f8】。将Rs理论拓广到能够处理连续属性,这既是Rs理论
发展的要求,也是实际应用的需要。
在目前已有的文献中,归纳起来有三种处理连续属性的方法。为了便于做对比分析,
现分别介绍如下:
属性的问题。要利用RS理论处理这类数据,就必须将它们转换成定性词汇,象“低”、
“中”、“高”等。在医疗诊断的实践中,这种转换通常是根据专家的经验标准来完成的。
然后,对定性词汇用数字O,1,2,…进行编码。Slowinski.K是利用专家提供的领域知识进行
连续属性离散化的。
f2)H方法:Hu.X.H[41把连续属性的离散化看作是面向属性的泛化问题。泛化是通过
该属性的概念树进行的。概念树是由领域专家事先提供的。如果对该属性没有提供高层概
念,这时,该算法将这个属性删除。
(3)L方法:Lenarcik.A在文f5冲,把原信息系统看成是随机信息系统。在此基础上,
定义了离散(戈0分)质量的期望值E“u1,.一,仉)。算法以属性的一个初始离散化(~般是
将区间等问隔分割)开始。在以后的每一步中,总是删除使得E“Ul,.一,U々)增量最大的 毒
分点;直到删除每个剩余分点时,划分质量的值不再增加,算法停止。这种方法类似于线
性规划中参数的后向删除,导出的是次优结果。
本文利用决策表相容性的反馈信息,提出了一种领域独立的基于动态层次聚类的连续
属性离散化算法。我{f3说明,只耍对距离函数及阈值适当定义,那么,Pawlak关于离散’
’本文得到圆家高技术课题863项目的资助
——838一
属性等价类的定义便是本算法的特例。也就是说,本方法为Rs理论处理离散与连续属性
提供了一种统一的框架。通过一些铡子将本算法与现有方法进行了比较分析.得到令人鼓
舞的结果。
2.基于动态层次聚类的连续属性离散化算法
件与决策属性集。令cEC为一连续属性,n=f口,b1。
本节我们将给iU一种基于动态层次聚类的离散化算法。首先对算法作些定性分析,论
羹 域u中的所有对象x,在某连续属性C上:的取值c(x,)可以看作是随机采集的一组数据。
那么,对这组数据可咀根据某种相似度进行聚类分析,从而得到关丁.u的一种划分。对
于一个决策表面畜,如果条件属性的划分较糨,则可能导致划分后的决策表不相容;如果
划分较细,则可能使划分后的决策表中仍然含有很多冗余信息,使得约简率较低。对于连
● 续型决策袁,由于各属性取很多不同的值,一般来说,它应楚相容的。因此,离散后的决
策表一般应保持其相容性。故我们对连续属性离散化的目标是:在保证划分后决策表的相
容性的前提下.寻找使得约简效率最高的划分。
所谓层次聚类算法,就是根据某种聚类准则(如误差平方和准则)将n个样本逐步分成
k类(kn)。对于聚类分析来说,当相似性测度确定之后,影响聚类大小的就是阈值了。由
上面的分析知道,可以通过划分后决策袭的相容性反馈信息,来逐步调整闺值,从而得到
连续属性的理想划分。
因为本文对决策表的属性是一一处理
您可能关注的文档
- “四块屏幕”推动养生文化传播.pdf
- “通中扰、扰中通”一种新体制的探讨.pdf
- “微机原理”的教学改革--题库CAI.pdf
- “微机原理”课程教学的体会.pdf
- “效仿”和“施为”%3a非物质文化遗产视野下我国的传统教学方法的返本开新.pdf
- “以水定电”常规水电站改造的新途径——响洪甸电站扩建抽水蓄能工程的运行方式、作用与效益.pdf
- 《GB13000.1字符集汉字部首归部规范》及其文字改革若干问题刍议.pdf
- 《成吉思汗的研究大系》及其《“蒙古秘史”的研究文献丛刊》的出版价值.pdf
- 《飞机维护规程管理系统》程序设计.pdf
- 《干禄字书》中字体标记的字体和日本古代文字资料字体的对比分析.pdf
文档评论(0)