第2讲 数据预处理.ppt

2.4.5 离散化 三种类型的属性值: 名称型——e.g. 无序集合中的值 序数——e.g. 有序集合中的值 连续值——e.g. 实数 离散化 将连续属性的范围划分为区间 有效的规约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析 (1)离散化和概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 (2)数据数值的离散化和概念分层生成 分箱(binning) 分箱技术递归的用于结果划分,可以产生概念分层。 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 基于熵的离散化 通过自然划分分段 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 自然划分的3-4-5规则: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间; 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用

文档评论(0)

1亿VIP精品文档

相关文档