(2)直方图分析 像分箱一样,直方图分析也是一种非监督离散化技术。直方图将一个属性的值划分成不相交的区间,称作桶。 例如,在等宽直方图中,将值分成相等的划分或区间,在等深直方图中,值被划分成其中每一部分包含相同个数的样本。每个桶有一个标记,用它替代落在该桶中的属性值,从而达到属性值离散化的目的。 (3)聚类分析 聚类分析是一种流行的数据离散化方法。通过聚类算法将属性的值划分成簇或组,每个簇或组有一个标记,用它替代该簇或组中的属性值。 2. 分类数据的概念分层方法 (1)离散属性概念分层的自动生成算法 对于离散属性,如果概念分层的任何层次上的结点(或属性值)个数少于它低的每一层上的结点数,可以利用以下算法自动生成隐含在该属性上的概念分层。 输入:离散属性集S={A1,A2,…,Am}和对应的数据集R。 输出:概念分层B1,B2,…,Bm。 方法:方法描述如下。 k=1,T=S; 从T中找一个属性Bk,它在R中不同值的个数是T的所有属性中最少的; while (km) { T=T-{Bk} minnum=∞; for (T中每个属性Ai) { 计算R中属性序列B1、B2、…,Bk在属性Ai上不同元组个数mynum; if (mynumminnum) {
原创力文档

文档评论(0)