- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章连续属性的离散化方法
口一般而言,数据库中的属性可以分为两种类
型
口一种是连续(也称为定量)属性,表示对象
的某些可测性质,其值取自某个连续区间,
例如,温度、长度等
口另一种是离散(定性)属性,这种属性值试
用语言或少量离散数值来表示,如性质、颜
色等等
口前面我们已经学习了利用粗糙集解决
离散(定性)属性的问题。
口此后,将粗糙集理论拓广到连续属性的处理
方面。
8.1常用离散化方法简介(一)
口 Slowinski R方法(S方法)
■即利用领域知识进行连续属性离散化的方法
我们称之为 Slowinski方法,简称S方法。
口HuXH方法(H方法)
■H方法的核心思想是:如果在概念树中对值存
在着高层概念,那么用相应的高层概念代替对
象中的那些值,这时该算法就是将这个属性删
除,使得对象得到泛化。
8.1常用离散化方法简介(二)
口 Lenarcik a.方法(L方法)
■定义81设U1,U2,…,J火k是论域∪的一种划分,
则定义
E5U,2…,=∑∑(-x+u)-1d-x)
为该划分的离散质量,记为ξ(U1,U2,…,1k)
8.1常用离散化方法简介(二)
该算法以属性的一个初始离散化(一般是将区间
等间隔分割)开始。在以后的每一步中,总是删
除使得5(,U2,D)
增量最大的分点,连续进行知道删除的每个剩余分
点的离散(划分)质量的值不再增加,则算法停止。
这种方法类似于线性规划中参数的后向删除
法,因此,该算法导出的是次优结果。
8.2基于动态层次聚类的连续属性离散化算法
口由于 Pawlak提岀的粗糙集理论只能处理离散属性,因
此要用粗糙集去处理含有连续属性的决策表,就必须首
先对其中的连续属性做某种离散化处理
口对于一个决策表DT而言,如果其连续性条件属性值的
离散化程度较粗,则可能导致划分后的决策表不相容
如果其连续性条件属性值的离散化程度较细,则可能使
离散划分后的决策表仍然含有很多冗余信息,使得约简
效率太低,降低了最小算法的实用性。
口离散化后的决策表一般也应保持其相容性。故我们对连
续性离散化的目标是:在保证划分后决策表的相容性的
前提下,寻找使得约简效率最优的划分
8.2.1层次聚类算法
口所谓层次聚类算法,就是根据某种聚类准则
(如误差平方和准则)将∩个样本分成k类
口分为三个步骤
8.2.1层次聚类算法
G,G2…,Gn,
第一步设有n个样本,每个样本自成一类,故有n类,
其中,上角标表示记载聚类合并的次数,这一步的主要
任务是计算各类之间的类间距(类之间的距离),得到
一个n*n阶的类间距离矩阵,然后循环以下步骤(M2);
第m+1步通过计算求得类间距离矩阵D中的最小元
素。如果它对应着G,G,则他们合并为一类,由此
得到新的分类GmG2…。同时,计算类间距离矩
阵D。如果Dw中最小元素大于阈值δ时,算法
终止,所得分类即为聚类结果;否则,转第m+2步;
第m+2步:重复第m+1步。
8.2.1层次聚类算法
口假设两个类kAh,而且k是由合并而成,则k,h两类间
的距离为
kh
文档评论(0)