- 10
- 0
- 约5.7千字
- 约 47页
- 2019-02-22 发布于天津
- 举报
数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现).ppt
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 连续属性离散化在KDD中是一个很重要的问题。很多数据挖掘和知识发现算法要求连续属性数据必须预先离散化之后才行。 离散化的任务是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个区间对应着一个离散的符号。 例如,设当前考察的属性是年龄,则一种可能的离散化是[0...11] ?小孩,[12...17] ?少年,[18...44] ?青壮年,[45-69]?中年,[79...] ?老年。 连续属性离散化? 连续属性离散化的方法有很多种: ①是否自动离散化:完全由人手工离散化,完全由机器自动离散化,机器辅助人离散化。一般地,离散化是指机器自动离散化。 ②是否与分类或决策类别有关:一是考虑分类类别;另一是不考虑分类类别,这种方法可用于非监督学习或概念聚类学习,不过当用于带有类别标记的分类学习时效果肯定不会好于上面的方法。 连续属性离散化? 一般有这样几种: 等宽区间法(equal-width-intervals) 等频区间法(equal-frequency-intervals) 最大熵法(maximum entropy) 4.2.1 语言场及语言值结构 给定数据库D上的所有属性集合A={a1, a2, …,am} 其中,ai也称为语言变量,每个属性又可以由不同的程度词来描述属性的状态,如对第一个属性ai可以表示为ai={ai1, ai2, …,aik} 其中,aij也称为语言值,aij的i表示第i个属性,j表示该属性的第j个程度词,如对温度而言,“很高”、“高”等都是程度词,也即语言值。 属性程度词是把某一属性和它的一个程度词放在一起(即语言变量+语言值),表示该属性的某种状态,例如,“温度很高”是一个属性程度词。 数值: 35 37 …… tm (D) 基础变量 (N) 语言值 低烧1 正常n2 …… nm 数值区间:[a0,a1] [a1,a2]… [am-1,am] (L)语言变量 体温、疼痛 定义4.1:在语言变量相应的基础变量论域中,各个被划分的交叉区间的中点连同ε-邻域(ε通常为允许误差值)内的点,称为标准样本(点),其取值邻域称为标准值;其余诸点均称为非标准样本(点),其取值称为非标准值。它们分别构成标准样本空间与非标准样本空间,并统称为一般样本空间。 属性的划分如下图所示,对于类别属性和取值范围不宽的离散型数值属性,可以将每个属性值映射到相应语言变量的语言值,但是对于连续型属性、或取值范围很宽的离散型属性,必须将其分为若干区间,然后将每个区间映射为一个相应的语言值。 有了以上的算法就可以得到语言值所映射的区间,其关键是求临界点,然后再对真实数据库进行处理,转换为挖掘数据库。令真实数据库为D,属性集为(e1,e2,…,em),属性ei所对应的数据精度为Pi,划分语言值的个数为Numi,划分语言值的标准样本点为aj,对应的ε-邻域的半径为rj,其中j=1,2,…, Numi,对应的临界点数值为Vk,其中k=1,2,…, Numi-1,则其算法描述如下: (1) for i:=1 to m do (2)??????????? for j:=1 to Numi-1 do (4)??????????? u:=aj (4)??????????? IsLarge:=True (5)??????????? while IsLarge do (6)??????????? u := u +Pi (7)??????????? if u(aj+rj) and u(aj+1-rj+1) then (8)??????????? (9)??????????? 求, //根据公式(4-2) (10)??????? if then (11)??????? Vj=u (12)??????? IsLarge:=False (14)??? end; 从以上讨论可以看出,利用语言场理论对连续属性进行离散化,该方法简单,计算时间短,可以根据专家(用户)的意愿来划分连续属性,从而用自然语言来描述最后得到的规则,使之更为用户所理解,因此比较实用,其不足之处是受人为因素的影响。 离散化的问题 离散化方法的一个先天不足是可能降低发现的知识的精确度,因此离散化过程如同其他的汇总小结过程一样,可能会导致某些相关的详细信息的丢失。另外,离散化方法对挖掘出的知识的质量的影响如何,仍是一个有待研究的课题。 离散化方法即改变连续属性为离散值。属性进
您可能关注的文档
- 叶县常村镇新建公厕工程.PDF
- 呼吸训练对脑'中患者步行功能的临床疗效观察-中国康复.PDF
- 技术研究进展.PDF
- 招标货物技术参数要求包1临床诊疗综合实训室项目.PDF
- 四年级数学补救教学教案.doc
- 提升职前教师校园霸凌辨识能力的训练介入成效.PDF
- 揭阳市综合中等专业学校.PDF
- 教学大纲-数学教研部.doc
- 数字3D立体电影技术之深度分析电影技术之深度分析电影技术之深度分析.PDF
- 数字乳腺断层融合X线成像中平均腺体剂量与乳腺密度、压.PDF
- (正式版)DB51∕T 1867-2014 《袋栽黑木耳生产技术规程》.docx
- (正式版)DB51∕T 2413-2023 《油橄榄密植丰产栽培技术规程》.docx
- (正式版)DB51∕T 2436-2017 《川菜东坡一品肉烹饪工艺技术规范》.docx
- (正式版)DB51∕T 2396-2017 《农村电子商务服务站(点)服务与管理规范》.docx
- (正式版)DB51∕T 2419-2017 《桢楠扦插育苗技术规程》.docx
- CN105145773B 一种无花果曲奇饼干及其制作方法 (江苏农林职业技术学院).docx
- CN105203825A 微测量电极的制作方法和热电势的测量方法及相关装置 (国家纳米科学中心).docx
- CN105137533B 一种啁啾光纤光栅及其制作方法 (南京航空航天大学).docx
- (正式版)DB51∕T 2453-2018 《巴山新居公共管理指南》.docx
- (正式版)DB51∕T 1892-2014 《川西北地区沙化土地治理技术规程》.docx
最近下载
- 2026年临汾职业技术学院单招职业适应性测试题库及答案详解.docx VIP
- 湖南省新高考教学教研联盟(长郡20校)2026届高三3月联考语文试题及答案.docx VIP
- 血液透析病人的饮食护理.ppt VIP
- 同等学力申硕《教育学学科综合水平考试》题库【真题精选+章节题库】.pdf VIP
- 世界铁路的发展史.pptx VIP
- 甘肃省天水市村文书考试真题.docx VIP
- 人教版道德与法治三年级下册第3课《一切靠劳动》 课件.pptx VIP
- 玻璃酸钠注射液应用课件PPT.pptx VIP
- 航运公司岗位任务说明书.doc VIP
- 统编版语文七年级下册第16课《有为有不为》(教学课件).pptx VIP
原创力文档

文档评论(0)