第八章聚类分析.pptVIP

下载本文档

6
0
约5.84千字
约 18页
2017-02-23 发布于上海
举报
版权申诉

第八章聚类分析.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八章聚类分析

第八章聚类分析 * “物以类聚, 人以群分” ，科学研究在揭示对象特点及其相互作用的过程中, 不惜花费时间和精力进行对象分类，以揭示其中相同和不相同的特征。在心理学研究中, 经常遇到的分类包括两种情况：一是对研究样本或个案的分类, 即根据每个个案的一系列观测指标，将那些在这些观测量方面表现相近的个案归为一类, 将那些在这些观测量方面的表现很不相同的个案归为不同类，类似于判别分析；二是对观测量的分类，即将一系列的观测量归类合并为性质明显不同的少数几个方面，类似于因素分析。但是聚类分析不同于因素分析：因素分析是根据所有变量间的相关关系提取公共因子；聚类分析是先将最相似的两个变量聚为一小类，再去与最相似的变量或小类合并，如此分层依次进行；聚类分析也不同于判别分析：判别分析是要先知道各种类，然后判断某个案是否属于某一类。我们这里主要是要介绍聚类分析方法及其SPSS的实现过程。一、聚类分析的基本原理聚类分析是一种数值分类方法（即完全是根据数据关系）。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系，或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面，所有指标组合起来形成一个完备的指标体系，它们互相配合可以共同刻画事物的特征。所谓完备的指标体系，是说入选的指标是充分的，其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备，则导致分类偏差。比如要对家庭教养方式进行分类，就要有描述家庭教育方式的一系列变量，这些变量能够充分地反映不同家庭对子女的教养方式。简单地说，聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠，得到的分类结果越是能描述事物各类间的本质区别。聚类分析完全是根据数据情况来进行的。就一个由n个个案、k个变量组成的数据文件来说，当对个案进行聚类分析时，相当于对k 维坐标系中的n 个点进行分组，所依据的是它们的距离；当对变量进行聚类分析时，相当于对n维坐标系中的k个点进行分组，所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢？拿连续测量的变量来说，可以用欧氏距离平方计算：即各变量差值的平方和。 1. 聚类分析的前期准备工作聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。 2. 聚类分析的主要方法在实际研究中，常见的问题是：研究者仅凭自己的主观认识和有限的文献分析，设定调查的项目，然后借此进行聚类分析。如此得到的结论是不可靠的。在采用问卷方法进行心理学研究时，特别是用到聚类分析、因子分析方法时，一般需要对研究对象进行调研，在较为全面地了解了相应行为及心理反应之后，制订问卷项目。这样得到的数据才可能是比较完备的，结论才相对比较可靠。二、Q聚类分析的SPSS过程第一步：数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的“距离”。聚类之前的数据文件包括：n个个案的k个观测值。此外还需要一个个案的标识变量。第二步：点击“Analyze”菜单选中“Classify”的“Hierarchical Cluster Analysis”,打开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中，将个案标识变量的变量名置入 “Label Cases By” 下的方框中，同时在 Cluster 之下选择 Cases。然后选中“Statistics”和“Plots”。第三步：点击“Method”打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换： (1) 小类间距离计算：默认方式是类间平均链锁法（Between- Groups linkage) ，这种方法最充分地使用了数据资料； (2) 样本间距离计算：观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量, 默认方法：二元欧氏距离平方。 (3) 如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择“Z-scores”, 这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择“By cas