软计算连续属性离散化方法.ppt

下载文档 降价啦

3
0
约1.37千字
约 23页
2020-10-04 发布于福建
举报
版权申诉
保障服务

软计算连续属性离散化方法.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第八章连续属性的离散化方法口一般而言,数据库中的属性可以分为两种类型口一种是连续(也称为定量)属性,表示对象的某些可测性质,其值取自某个连续区间, 例如,温度、长度等口另一种是离散(定性)属性,这种属性值试用语言或少量离散数值来表示,如性质、颜色等等口前面我们已经学习了利用粗糙集解决离散(定性)属性的问题。口此后,将粗糙集理论拓广到连续属性的处理方面。 8.1常用离散化方法简介(一) 口 Slowinski R方法(S方法) ■即利用领域知识进行连续属性离散化的方法我们称之为 Slowinski方法,简称S方法。口HuXH方法(H方法) ■H方法的核心思想是:如果在概念树中对值存在着高层概念,那么用相应的高层概念代替对象中的那些值,这时该算法就是将这个属性删除,使得对象得到泛化。 8.1常用离散化方法简介(二) 口 Lenarcik a.方法(L方法) ■定义81设U1,U2,…,J火k是论域∪的一种划分, 则定义 E5U,2…,=∑∑(-x+u)-1d-x) 为该划分的离散质量,记为ξ(U1,U2,…,1k) 8.1常用离散化方法简介(二) 该算法以属性的一个初始离散化(一般是将区间等间隔分割)开始。在以后的每一步中,总是删除使得5(,U2,D) 增量最大的分点,连续进行知道删除的每个剩余分点的离散(划分)质量的值不再增加,则算法停止。这种方法类似于线性规划中参数的后向删除法,因此,该算法导出的是次优结果。 8.2基于动态层次聚类的连续属性离散化算法口由于 Pawlak提岀的粗糙集理论只能处理离散属性,因此要用粗糙集去处理含有连续属性的决策表,就必须首先对其中的连续属性做某种离散化处理口对于一个决策表DT而言,如果其连续性条件属性值的离散化程度较粗,则可能导致划分后的决策表不相容如果其连续性条件属性值的离散化程度较细,则可能使离散划分后的决策表仍然含有很多冗余信息,使得约简效率太低,降低了最小算法的实用性。口离散化后的决策表一般也应保持其相容性。故我们对连续性离散化的目标是:在保证划分后决策表的相容性的前提下,寻找使得约简效率最优的划分 8.2.1层次聚类算法口所谓层次聚类算法,就是根据某种聚类准则 (如误差平方和准则)将∩个样本分成k类口分为三个步骤 8.2.1层次聚类算法 G,G2…,Gn, 第一步设有n个样本,每个样本自成一类,故有n类, 其中,上角标表示记载聚类合并的次数,这一步的主要任务是计算各类之间的类间距(类之间的距离),得到一个n*n阶的类间距离矩阵,然后循环以下步骤(M2); 第m+1步通过计算求得类间距离矩阵D中的最小元素。如果它对应着G,G,则他们合并为一类,由此得到新的分类GmG2…。同时,计算类间距离矩阵D。如果Dw中最小元素大于阈值δ时,算法终止,所得分类即为聚类结果;否则,转第m+2步; 第m+2步:重复第m+1步。 8.2.1层次聚类算法口假设两个类kAh,而且k是由合并而成,则k,h两类间的距离为 kh

您可能关注的文档

文档评论（0）

3471161553 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

软计算连续属性离散化方法.ppt