spss实现聚类分析.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss实现聚类分析

第三章 聚类分析cluster analysis 概述 距离与相似系数 系统聚类法 (hierarchical clustering ) 快速聚类法 (k-means clustering) 变量聚类 一、概述 聚类的实质 根据样本(变量)间的亲疏关系将样本(变量)分为类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。 聚类分析的关键 亲疏关系的判别:相似性与距离(不相似性) 分类数的确定:分多少类合适 聚类分析的应用 不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经济综合评价 产品市场细分:按照消费者的需求特征分成不同的细分市场 在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类 聚类分析的类型 根据分类的对象 Q型聚类(即样品聚类clustering for individuals) R型聚类(指标聚类clustering for variables) 根据分类的方法: 系统聚类(hierarchical clustering ) 快速聚类(k-means clustering) 聚类分析数据格式 二、距离与相似系数 样本间的亲疏关系通常用距离描述,变量间的亲疏关系通常用相似系数或相关系数描述 不同测量尺度的数据,其距离的计算方法不同 (一)、距离:样本间的亲疏关系 距离的定义: 假使每个样品由p个变量描述,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij dij满足下列条件 dij≥0 dii =0 dij = dji dij ≤ dik + dkj 1. 欧式(Euclidian )距离 2. 明氏(Minkowski )距离 实例计算 绝对值距离 Euclidian距离的平方 Euclidian距离 明氏距离的缺点 各指标同等对待(权数相同),不能反映各指标变异程度上的差异 距离的大小与各指标的观测单位有关,有时会出现不合理结果(p7,图1-1例) 没有考虑指标之间的相关性 3. 马氏(Mahalanobis) 距离 已知一二维正态总体G的分布为:G~N(?,?),其中 欧氏距离、标准化变量的欧式距离与马氏距离的比较 4. Lance和Williams 距离 5. 配合距离 1. 夹角余弦(Cosine) 2. Pearson相关系数 SPSS的analyze →corelate→distances Measures对话框 三、系统聚类法 Agglomerative系统聚类法基本步骤 步骤1:将n个样品各作为一类,共n类:C1、 C2、…、 Cn。计算各类之间的距离,构成距离矩阵:dcicj=dij 步骤2:找到距离最近的两类合并为一新类 步骤3:计算新类与当前各类的距离。 重复步骤2、3,直至合并成一类为止,形成谱系图 根据谱系图确定如何分类 冰柱图 (二)最长距离法 (三)中间距离法 (median method) (四)类平均法 (average linkage between group) (五)重心法(centroid method) (六)Ward最小方差法 (Ward’ minimum variance method) (七)各种系统聚类方法的统一 八种系统聚类法公式的参数 分类数的确定及类别的解释 系统聚类法给我们提供了一个类别距离谱系,最终样本如何分类、分成几类需要我们自己根据研究的目的确定。 系统聚类的SPSS实现 指定参与聚类的变量名和样品号 Statistics Plot对话框 Method对话框 聚类方法选项 Between-group linkage: 类平均法,使两两项对之间的平均距离最小 Within-group linkage: 类内平均连锁,合并后的类中所有项之间的平均距离最小。两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方。 Nearest neighbor Fartherst neighbor Centroid clustering Median clustering Ward’s method 距离测度方法选项 Interval: Euclidean distance Squared euclidean distance Cosine:变量矢量的余弦 Chebychev Block: Manhattan 距离,两观测单位间距离为其值差的绝对值和,用于Q型聚类 Minkowski Customized: 距离是一个绝对幂的度量,即变量绝对值的第p次幂值和的第r次根 数值标准化的方法选项 None: 不标准化 Z scores: 标准化 Range -1 to 1:

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档