- 86
- 0
- 约1.17万字
- 约 68页
- 2018-09-04 发布于河北
- 举报
数据挖掘2第二章-数据预处理
针对数值型数据的离散化和概念层次化 ECUST--Jing Zhang * 分箱 (前面已讲过) 直方图分析 基于熵的离散化 基于Χ2 (chi-square) 分析的区间合并 聚类分析 根据直观划分离散化 直方图 ECUST--Jing Zhang * 一个常用的非监督数据规约技术 将数据划分成多个桶(buckets),并且以 平均值(总和)表示每个桶 能够通过动态规划的方法优化生成 基于熵的离散化 利用熵的值递归地划分数值属性A的值,产生分层的离散化。 给定一个样本集S,基于熵对A离散化的方法如下: A的每个值可以认为是一个潜在的区间边界或阈值T。 给定S,所选择的阈值时这样的值,它使其后划分得到的信息增益最大。信息增益是: 其中,s1和s2分别对应于s中满足条件AT和A》T的样本。对于给定集合,它的熵函数Ent根据集合中样本的类分布来计算。例如,给定m个类,Si的熵为:(pi是类i在Si中的概率) 确定阈值的过程递归的用于所得到的每个划分,直到满足某个终止条件,如: 实验证明基于熵的离散化可以压缩数据量,提高分类的准确性 * 基于Χ2 (chi-square) 分析的区间合并 基本思想 对于精确的离散化,相对类频率在一个区间内应当相当一致。如果两个邻近的区间具有非常类似的类分布,则这两个区间可以合并。否则,它们应该保持分开 过程 把数值属性A的每个不同值看做一
原创力文档

文档评论(0)