聚类分析的思路和方法.ppt

聚类分析 Cluster Analysis;什么是聚类分析?;聚类分析的基本思想;聚类分析无处不在;聚类分析无处不在;聚类分析无处不在;聚类的应用领域; 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。得分如下,选择合适的统计方法对应聘者进行分类。;9;10; 聚类分析根据一批样本的许多观测指标,按照一定的数学公式具体地计算一些样本或一些指标的相似程度,把相似的样本或指标归为一类,把不相似的归为一类。 ;样本或变量间亲疏程度的测度 ;设有n个样本单位,每个样本测得p项指标(变量),原始资料矩阵为: ;定比变量的聚类统计量:距离统计量;1. 绝对距离(Block距离) 2. 欧氏距离(Euclidean distance) ;3. 明考斯基距离(Minkowski) 4. 兰氏距离 5. 马氏距离 6. 切比雪夫距离(Chebychev) ;17;1. 相关系数 2. 夹角余弦 ;计数变量(Count)(离散变量)的聚类统计量;二值(Binary)变量的聚类统计量;聚类的类型;聚类的类型;层次聚类;系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。;类间距离的度量方法;最短距离法(Nearest Neighbor);;最长距离法(Further Neighbor);;组间平均连接法 (Between-group linkage);;组内平均连接法 (Within-group linkage); 组内平均连接法(Within-group Linkage) ;重心法(Centroid clustering);重心距离:均值点的距离 ;中位数法(Median clustering);离差平方和法(Ward’s method); 主要步骤;3. 计算聚类统计量 聚类统计量是根据变换以后的数据计算得到的一个新数据,它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。; 4. 聚类 主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数;5. 聚类结果的解释和证实;k-均值聚类 K-means Cluster;k-均值聚类 K-means Cluster;聚类分析终止的条件;例子1:31个省区小康和现代化指数的聚类分析;系统聚类;Agglomeration schedule:输出聚类过程表 Proximity matrix:输出各个???之间的距离矩阵 Cluster Membership:每个个体类别归属表;Dendrogram:聚类树形图 Icicle:冰柱图;49;50;51;52;53;如果分为3类;输出各组的统计信息;56;57;K均值聚类;59;60;61;62;63;例子2:土壤样本聚类分析;系统聚类;66;67;68;69;70;71;72;K均值聚类;74;75;76;77;78;R型聚类的例子

文档评论(0)

1亿VIP精品文档

相关文档