第九章SPSS的聚类分析.pptVIP

下载本文档

22
0
约5.86千字
约 32页
2017-02-14 发布于天津
举报
版权申诉

第九章SPSS的聚类分析.ppt

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章SPSS的聚类分析

第九章 SPSS的聚类分析聚类分析概述概念：聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如：细分市场、消费行为划分聚类分析是建立一种分类，是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大. 聚类分析概述聚类分析概述亲疏远程度的衡量指标相似性:数据间相似程度的度量距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类定距型个体间的距离：把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据欧氏距离(EUCLID) 平方欧氏距离(SEUCLID) 聚类分析概述品质型个体间的距离简单匹配(simple matching)系数:适用二值变量。聚类分析概述品质型个体间的距离根据临床表现研究病人是否有类似的病聚类分析概述品质型个体间的距离雅科比（Jaccard）系数:适用二值变量聚类分析概述品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病聚类分析概述说明聚类过程中如果数据在数量级上存在差异时，应进行标准化处理。例如: 样本的欧氏距离元万元（1，2） 265000 81.623 （1，3） 218000 193.700 （2，3） 47000 254.897 分层聚类思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即：把所有的个体和小类聚集成越来越大的类，直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低分层聚类思路以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即：把类分解成越来越小的小类，直到所有的个体自成一类为止可见,随着聚类的进行,类内的亲密性在逐渐增强分层聚类 “亲疏”程度的衡量对象个体间距离个体和小类间、小类和小类间的距离分层聚类个体和小类、类和类间的距离最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法(furthest neighbor)：两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法(within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括：组间平均链锁法(between-groups linkage):只考虑两类间个案的距离组内平均链锁法（With-groups linage)：考虑所有个案间的距离分层聚类基本操作步骤 1.基本操作 A.菜单选项: analyze-classify-hierachical cluster B.选择参与聚类分析的变量入variables框 C.选择一字符型变量作为个案的标记变量(label cases) D.选择个案聚类还是变量聚类分层聚类基本操作步骤 2. 选择距离计算方法（method选项） cluster method:计算类间距离的方法 measure:计算样本距离的方法 transform values:对数据进行标准化处理 by variable:以变量为单位标准化，适于个案聚类 by case:对个案为单位标准化，适于变量聚类分层聚类进一步的工作 1.数据输出（statistics选项） agglomeration schedule:凝聚状态表（默认） distance matrix:样本的距离矩阵 cluster membership:类成员 none:不输出类成员（默认） single solution：聚成n类时各样本的归属 range of solutions:聚成m~n类时各样本的归属(mn总样本数) 分层聚类进一步的工作 2. 图形输出（plot选项） dendrogram:树型图 icicle:冰柱图 all cluster:聚类的每一步均在冰柱图中体现 specified range of clusters:将聚类的第n1类开始到第n2类结束，间隔n3类的聚类分析过程在冰柱图中体现 orientation:冰柱图的方向 vertical:纵向; horizontal:横向分层聚类进一步的工作