Data Mining: Concepts and Techniques 聚类分析在数据挖掘中的应用分析 聚类在数据挖掘中的典型应用有: 聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析,以获得进一步的有用信息。 可以作为一个独立的工具来获得数据的分布情况:聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。 聚类分析可以完成孤立点挖掘:许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在。 聚类概念 定义 5-1 聚类分析的输入可以用一组有序对(X, s) 或(X, d)表示,这里X表示一组样本,s和d分别是度量样本间相似度或相异度(距离)的标准。聚类系统的输出是一个分区若C={C1, C2,…, Ck},其中Ci(i=1,2….,K)是X的子集,且满足: C中的成员C1, C2,…, Ck叫做类或簇(Cluster),每一个类或簇都是通过一些特征描述的,通常有如下表示方式: 通过它们的中心或类的边界点表示一个类; 使用聚类树中的结点图形化
原创力文档

文档评论(0)