聚类分析方法与SPSS汇编.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析方法与SPSS汇编

聚类分析方法 基于SPSS应用软件 (一) 聚类分析的一般问题 1.聚类分析的意义 聚类分析是统计中研究物以类聚的多元统计分析方法,针对的是生活中广泛存在的聚类现象和形成的统计分析方法; 例如:市场细分和客户细分问题; 聚类分析是将一组数据(变量)按照其不同的特征(或者在样本上的不同表现)自动分成若干类,类内部有相似性,类之间有区别; 理解聚类分析的关键 (1)首先不知道数据到底是来自几个类; (2)第二不知道每个数据到底是那一类; (3)第三也不知道类和类的界限是什么; (4)所谓亲疏程度就是两个数据(变量)综合考虑各指标后的接近程度; 2. 聚类分析中的“亲疏程度”的度量方法 数据中,个体之间的亲疏程度是非常重要的,因为我们正是依靠这种亲疏程度来将进行类的合并和分化; 亲疏程度的测度一般可以有两个角度: 个体间的相似程度,越相似两个体越接近,可以用相似系数来描述这种相似程度; 个体间的差异程度,即个体间的距离,距离越近则个体越接近; 首先要将数据看成空间中的一个点,以此来定义距离,距离的定义有很多,可以分为欧氏距离,明氏距离,夹角余弦等; 根据变量的类型不同,距离的定义方式也不同,比如定距型变量和计数型变量的距离就不一样; 3. 聚类分析的几点说明 所选的变量应该符合聚类的要求,一定要选取与分析的目标有关的变量,而不要选取无关的变量; 各变量的变量值不应该在数量级上有差异,数量级上的差异可能带来距离上不准确从而影响聚类效果,解决的方法是先将数据标准化; 各变量间不应该有较强的线性相关关系,否则其中一个变量就没有用了;    常见的聚类分析方法有两种:层次聚类和K-Mean聚类,这两种方法SPSS都提供菜单操作。 (二) 层次聚类 1. 层次聚类的两种类型和两种方式 层次聚类又称系统聚类,聚类过程按照一定的层次进行,即从小类到大类的层次, 有两种类型:Q型聚类和R型聚类, 聚类方式也分两种:凝聚型聚类和分解型聚类; Q型聚类是对样本进行聚类,R型聚类是对变量进行聚类; 凝聚方式聚类的思想是首先每个样本自成一类,然后按照某种方法度量个体间的亲疏程度,将其中最亲密的个体聚成一小类,然后以此继续下去,直到最后只剩下一个类; 分解方式聚类的思想是首先所有个体都成为一个大类,然后按照某种方法度量亲疏程度,将最疏远的个体分离除去形成两个类,以此继续下去,知道每一个个体自成一类; 在SPSS中采用凝聚方式的聚类方法 2. 个体与小类,小类与小类之间的亲疏程度的度量方法 SPSS提供了很多度量小类与小类之间的亲疏程度的方法,下面分别介绍几种: “Cluster”共有七种进行聚类的方法: ①“Between-groups linkage”类间平均法,当两类之间所有个案之间距离的平均值最小时,这两类可以合并为一类。这是系统缺省的方法。 ②“Within- groups linkage”类内平均法,当合并后所有个案的距离的平均值最小时,这两类可以合并为一类。 ③“Nearest neighbor”最短距离法,当两类之间最近的个案之间的距离最小时,这两类可以合并为一类。 ④“Furthest neighbor”最长距离法,当两类之间最远的个案之间的距离最小时,这两类可以合并为一类。 ⑤“Centroid clustering”重心法,当两类中重心的距离最小时,这两类可以合并为一类。 ⑥“Median clustering”中心法,当两类中心的距离最小时,这两类可以合并为一类。 ⑦“Wards method”离差平方和法,当合并后类内部的各个个案距离的离差平方和最小时,这两类可以合并为一类。 选择变量进入“Variable(s)”中 选择聚类类型“Cluster”(单选项): 样本聚类Cases(“Q聚类”)或变量聚类Variable(“R聚类”) “display”中可以选择(复选项) : “Statistics”只计算统计分析。 “plots”只产生图像。 “Agglomeration schedule”为生成并类过程表。在表中将显示并类过程中的并类信息,包括:并类距离值、在相应值上的并类类别和类间关系。可以根据并类过程表了解聚类过程。 “Proximity matrix”产生测度矩阵。测度矩阵可以显示出并类过程中各类之间的距离或相关性。 “Cluster Membership”聚类成员关系表。在并类过程中,各个个案被并到哪一类: “None” 不显示聚类成员关系表。 “Single solution”显示指定类数时聚类成员关系表。指定的类数应当是小于等于个案个

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档