第二讲聚类Kmeans算法和应用 (K-means cluster).pdfVIP

下载本文档

196
0
约9.81千字
约 16页
2017-06-07 发布于湖北
举报

第二讲聚类Kmeans算法和应用 (K-means cluster).pdf

CLEMENTINE 12CLEMENTINE 12 SEGMENTATIONSEGMENTATION （（KK--MEANSMEANS））何谓集群分析何谓集群分析((CLUSTERINGCLUSTERING ANALYSISANALYSIS)) 集群分析是一种将样本观察值进行分析，具有某些共同特性者予以整合在一起，再将之分配到特定的群体，最后形成许多不同集群的一种分析方法。 Clementine12.0中提供的集群分析方法有三种： 1. K-means 2. Two-step 3. Kohonen KK--MEANSMEANS的理论背景的理论背景 K-Means是集群分析(Cluster Analysis)中一种非阶层式((Nonhierarchical))的演算方法，由 J. B. Mac Queen于1967年正式发表，也是最早的组群化计算技术。其中，非阶层式则是指在各阶段分群过程中，将原有的集群予以打散，并重新形成新的集群。 K-Means是一种前设式群集算法，也就是说必须事前设定群集的数量，然后根据此设定找出最佳群集结构。而K-Means算法最主要的概念就是以集群内资料平均值为集群的中心。 KK--MEANSMEANS演算步骤演算步骤设定K值计算距離并分群重新找寻新的中心点重新计算新的距離并分群 KK--MEANSMEANS演算步骤演算步骤不断重复步骤三四，直到所设计的停止条件发生。一般是以没有任何对象变换所属集群为停止绦件，也就是所谓的square- error criterion： E K 1 p m 2 0 i i p C i i mi i p i 代表集群的中心(平均数)，是集群 C i 内的物件，则代表集群。 KK--MEANSMEANS的基本需求与优缺点的基本需求与优缺点建立K-means模型的要求：需要一个以上的 In字段。方向为Out、Both、None的字段将被忽略。优点：建立K-means模型不需要分组数据。对于大型数据集，K-means模型常常是最快的分群方法。缺点：对于初始值的选择相当敏感，选择不同的初始值，可能会导致不同的分群结果。模型名称基本操作介绍基本操作介绍 Auto ：选择该选项后，模型名称

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第二讲聚类Kmeans算法和应用 (K-means cluster).pdfVIP