数据挖掘2第二章-数据预处理.pptVIP

下载本文档

86
0
约1.17万字
约 68页
2018-09-04 发布于河北
举报

数据挖掘2第二章-数据预处理.ppt

数据挖掘2第二章-数据预处理

针对数值型数据的离散化和概念层次化 ECUST--Jing Zhang * 分箱（前面已讲过）直方图分析基于熵的离散化基于Χ2 (chi-square) 分析的区间合并聚类分析根据直观划分离散化直方图 ECUST--Jing Zhang * 一个常用的非监督数据规约技术将数据划分成多个桶（buckets），并且以平均值（总和）表示每个桶能够通过动态规划的方法优化生成基于熵的离散化利用熵的值递归地划分数值属性A的值，产生分层的离散化。给定一个样本集S，基于熵对A离散化的方法如下： A的每个值可以认为是一个潜在的区间边界或阈值T。给定S，所选择的阈值时这样的值，它使其后划分得到的信息增益最大。信息增益是：其中，s1和s2分别对应于s中满足条件AT和A》T的样本。对于给定集合，它的熵函数Ent根据集合中样本的类分布来计算。例如，给定m个类，Si的熵为：（pi是类i在Si中的概率）确定阈值的过程递归的用于所得到的每个划分，直到满足某个终止条件，如：实验证明基于熵的离散化可以压缩数据量，提高分类的准确性 * 基于Χ2 (chi-square) 分析的区间合并基本思想对于精确的离散化，相对类频率在一个区间内应当相当一致。如果两个邻近的区间具有非常类似的类分布，则这两个区间可以合并。否则，它们应该保持分开过程把数值属性A的每个不同值看做一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘2第二章-数据预处理.pptVIP