软计算 连续属性离散化方法.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章连续属性的离散化方法 口一般而言,数据库中的属性可以分为两种类 型 口一种是连续(也称为定量)属性,表示对象 的某些可测性质,其值取自某个连续区间, 例如,温度、长度等 口另一种是离散(定性)属性,这种属性值试 用语言或少量离散数值来表示,如性质、颜 色等等 口前面我们已经学习了利用粗糙集解决 离散(定性)属性的问题。 口此后,将粗糙集理论拓广到连续属性的处理 方面。 8.1常用离散化方法简介(一) 口 Slowinski R方法(S方法) ■即利用领域知识进行连续属性离散化的方法 我们称之为 Slowinski方法,简称S方法。 口HuXH方法(H方法) ■H方法的核心思想是:如果在概念树中对值存 在着高层概念,那么用相应的高层概念代替对 象中的那些值,这时该算法就是将这个属性删 除,使得对象得到泛化。 8.1常用离散化方法简介(二) 口 Lenarcik a.方法(L方法) ■定义81设U1,U2,…,J火k是论域∪的一种划分, 则定义 E5U,2…,=∑∑(-x+u)-1d-x) 为该划分的离散质量,记为ξ(U1,U2,…,1k) 8.1常用离散化方法简介(二) 该算法以属性的一个初始离散化(一般是将区间 等间隔分割)开始。在以后的每一步中,总是删 除使得5(,U2,D) 增量最大的分点,连续进行知道删除的每个剩余分 点的离散(划分)质量的值不再增加,则算法停止。 这种方法类似于线性规划中参数的后向删除 法,因此,该算法导出的是次优结果。 8.2基于动态层次聚类的连续属性离散化算法 口由于 Pawlak提岀的粗糙集理论只能处理离散属性,因 此要用粗糙集去处理含有连续属性的决策表,就必须首 先对其中的连续属性做某种离散化处理 口对于一个决策表DT而言,如果其连续性条件属性值的 离散化程度较粗,则可能导致划分后的决策表不相容 如果其连续性条件属性值的离散化程度较细,则可能使 离散划分后的决策表仍然含有很多冗余信息,使得约简 效率太低,降低了最小算法的实用性。 口离散化后的决策表一般也应保持其相容性。故我们对连 续性离散化的目标是:在保证划分后决策表的相容性的 前提下,寻找使得约简效率最优的划分 8.2.1层次聚类算法 口所谓层次聚类算法,就是根据某种聚类准则 (如误差平方和准则)将∩个样本分成k类 口分为三个步骤 8.2.1层次聚类算法 G,G2…,Gn, 第一步设有n个样本,每个样本自成一类,故有n类, 其中,上角标表示记载聚类合并的次数,这一步的主要 任务是计算各类之间的类间距(类之间的距离),得到 一个n*n阶的类间距离矩阵,然后循环以下步骤(M2); 第m+1步通过计算求得类间距离矩阵D中的最小元 素。如果它对应着G,G,则他们合并为一类,由此 得到新的分类GmG2…。同时,计算类间距离矩 阵D。如果Dw中最小元素大于阈值δ时,算法 终止,所得分类即为聚类结果;否则,转第m+2步; 第m+2步:重复第m+1步。 8.2.1层次聚类算法 口假设两个类kAh,而且k是由合并而成,则k,h两类间 的距离为 kh

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档