2.4.5 离散化 三种类型的属性值: 名称型——e.g. 无序集合中的值 序数——e.g. 有序集合中的值 连续值——e.g. 实数 离散化 将连续属性的范围划分为区间 有效的规约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析 (1)离散化和概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 (2)数据数值的离散化和概念分层生成 分箱(binning) 分箱技术递归的用于结果划分,可以产生概念分层。 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 基于熵的离散化 通过自然划分分段 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 自然划分的3-4-5规则: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间; 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用
您可能关注的文档
- 第1章 AutoCAD 2007入门基础67129.ppt
- 第1章 AutoCAD 2007入门基础67153.ppt
- 第1章 AutoCAD 2007入门基础67163.ppt
- 第1章 AutoCAD 2007入门基础67168.ppt
- 第1章 AutoCAD 2007入门基础67217.ppt
- 第二章 线性控制系统的运动分析.ppt
- 第1章 AutoCAD 2007入门基础67219.ppt
- 第1章 AutoCAD 2007入门基础67234.ppt
- 第二章 序列的收集与存储(ok).ppt
- 第1章 AutoCAD 2007入门基础67261.ppt
- 2026年四川文化产业职业学院单招职业适应性考试题库及答案详解(历年真题).docx
- 2026年度宁德师范学院单招《英语》考前冲刺试卷(满分必刷)附答案详解.docx
- 多元保护主体视域下非遗传承与乡村振兴——以青岛市城阳区洼里盘鼓为例.docx
- 2026年度宁德师范学院单招《英语》考试彩蛋押题(全国通用)附答案详解.docx
- 2026年四川文化产业职业学院单招职业倾向性考试题库附答案详解(名师推荐).docx
- 2026年四川文化产业职业学院单招职业倾向性考试题库附答案详解(模拟题).docx
- 2026年度宁德师范学院单招《英语》每日一练试卷及完整答案详解(必刷).docx
- 2026年四川文化产业职业学院单招职业倾向性考试题库附答案详解.docx
- 2026年四川文化产业职业学院单招职业倾向性考试题库精编答案详解.docx
- 2026年度宁德师范学院单招《数学》全真模拟模拟题(考点梳理)附答案详解.docx
原创力文档

文档评论(0)