数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现).pptVIP

  • 10
  • 0
  • 约5.7千字
  • 约 47页
  • 2019-02-22 发布于天津
  • 举报

数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现).ppt

数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现).ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 连续属性离散化在KDD中是一个很重要的问题。很多数据挖掘和知识发现算法要求连续属性数据必须预先离散化之后才行。 离散化的任务是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个区间对应着一个离散的符号。 例如,设当前考察的属性是年龄,则一种可能的离散化是[0...11] ?小孩,[12...17] ?少年,[18...44] ?青壮年,[45-69]?中年,[79...] ?老年。 连续属性离散化? 连续属性离散化的方法有很多种: ①是否自动离散化:完全由人手工离散化,完全由机器自动离散化,机器辅助人离散化。一般地,离散化是指机器自动离散化。 ②是否与分类或决策类别有关:一是考虑分类类别;另一是不考虑分类类别,这种方法可用于非监督学习或概念聚类学习,不过当用于带有类别标记的分类学习时效果肯定不会好于上面的方法。 连续属性离散化? 一般有这样几种: 等宽区间法(equal-width-intervals) 等频区间法(equal-frequency-intervals) 最大熵法(maximum entropy) 4.2.1 语言场及语言值结构 给定数据库D上的所有属性集合A={a1, a2, …,am} 其中,ai也称为语言变量,每个属性又可以由不同的程度词来描述属性的状态,如对第一个属性ai可以表示为ai={ai1, ai2, …,aik} 其中,aij也称为语言值,aij的i表示第i个属性,j表示该属性的第j个程度词,如对温度而言,“很高”、“高”等都是程度词,也即语言值。 属性程度词是把某一属性和它的一个程度词放在一起(即语言变量+语言值),表示该属性的某种状态,例如,“温度很高”是一个属性程度词。 数值: 35 37 …… tm (D) 基础变量 (N) 语言值 低烧1 正常n2 …… nm 数值区间:[a0,a1] [a1,a2]… [am-1,am] (L)语言变量 体温、疼痛 定义4.1:在语言变量相应的基础变量论域中,各个被划分的交叉区间的中点连同ε-邻域(ε通常为允许误差值)内的点,称为标准样本(点),其取值邻域称为标准值;其余诸点均称为非标准样本(点),其取值称为非标准值。它们分别构成标准样本空间与非标准样本空间,并统称为一般样本空间。 属性的划分如下图所示,对于类别属性和取值范围不宽的离散型数值属性,可以将每个属性值映射到相应语言变量的语言值,但是对于连续型属性、或取值范围很宽的离散型属性,必须将其分为若干区间,然后将每个区间映射为一个相应的语言值。 有了以上的算法就可以得到语言值所映射的区间,其关键是求临界点,然后再对真实数据库进行处理,转换为挖掘数据库。令真实数据库为D,属性集为(e1,e2,…,em),属性ei所对应的数据精度为Pi,划分语言值的个数为Numi,划分语言值的标准样本点为aj,对应的ε-邻域的半径为rj,其中j=1,2,…, Numi,对应的临界点数值为Vk,其中k=1,2,…, Numi-1,则其算法描述如下: (1) for i:=1 to m do (2)??????????? for j:=1 to Numi-1 do (4)??????????? u:=aj (4)??????????? IsLarge:=True (5)??????????? while IsLarge do (6)??????????? u := u +Pi (7)??????????? if u(aj+rj) and u(aj+1-rj+1) then (8)??????????? (9)??????????? 求, //根据公式(4-2) (10)??????? if then (11)??????? Vj=u (12)??????? IsLarge:=False (14)??? end; 从以上讨论可以看出,利用语言场理论对连续属性进行离散化,该方法简单,计算时间短,可以根据专家(用户)的意愿来划分连续属性,从而用自然语言来描述最后得到的规则,使之更为用户所理解,因此比较实用,其不足之处是受人为因素的影响。 离散化的问题 离散化方法的一个先天不足是可能降低发现的知识的精确度,因此离散化过程如同其他的汇总小结过程一样,可能会导致某些相关的详细信息的丢失。另外,离散化方法对挖掘出的知识的质量的影响如何,仍是一个有待研究的课题。 离散化方法即改变连续属性为离散值。属性进

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档