聚类分析的思路和方法.ppt

下载文档

3
0
约1.33千字
约 79页
2021-11-20 发布于广东
举报
保障服务

聚类分析的思路和方法.ppt

聚类分析Cluster Analysis;什么是聚类分析？;聚类分析的基本思想;聚类分析无处不在;聚类分析无处不在;聚类分析无处不在;聚类的应用领域; 例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。得分如下，选择合适的统计方法对应聘者进行分类。;9;10; 聚类分析根据一批样本的许多观测指标，按照一定的数学公式具体地计算一些样本或一些指标的相似程度，把相似的样本或指标归为一类，把不相似的归为一类。 ;样本或变量间亲疏程度的测度;设有n个样本单位，每个样本测得p项指标（变量），原始资料矩阵为： ;定比变量的聚类统计量：距离统计量;1. 绝对距离（Block距离） 2. 欧氏距离(Euclidean distance) ;3. 明考斯基距离(Minkowski) 4. 兰氏距离 5. 马氏距离 6. 切比雪夫距离(Chebychev) ;17;1. 相关系数 2. 夹角余弦 ;计数变量(Count)（离散变量）的聚类统计量;二值(Binary)变量的聚类统计量;聚类的类型;聚类的类型;层次聚类;系统聚类法不仅需要度量个体与个体之间的距离，还要度量类与类之间的距离。类间距离被度量出来之后，距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。;类间距离的度量方法;最短距离法(Nearest Neighbor);;最长距离法(Further Neighbor);;组间平均连接法(Between-group linkage);;组内平均连接法(Within-group linkage); 组内平均连接法（Within-group Linkage) ;重心法(Centroid clustering);重心距离：均值点的距离 ;中位数法(Median clustering);离差平方和法(Ward’s method); 主要步骤;3. 计算聚类统计量聚类统计量是根据变换以后的数据计算得到的一个新数据，它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。; 4. 聚类主要涉及两个问题：（1）选择聚类的方法（2）确定形成的类数;5. 聚类结果的解释和证实;k-均值聚类K-means Cluster;k-均值聚类K-means Cluster;聚类分析终止的条件;例子1：31个省区小康和现代化指数的聚类分析;系统聚类;Agglomeration schedule：输出聚类过程表 Proximity matrix：输出各个???之间的距离矩阵 Cluster Membership：每个个体类别归属表;Dendrogram：聚类树形图 Icicle：冰柱图;49;50;51;52;53;如果分为3类;输出各组的统计信息;56;57;K均值聚类;59;60;61;62;63;例子2：土壤样本聚类分析;系统聚类;66;67;68;69;70;71;72;K均值聚类;74;75;76;77;78;R型聚类的例子

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

聚类分析的思路和方法.ppt