- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十一章 聚类分析 一、聚类分析概述 二、相似性的衡量 三、层次聚类分析 四、非层次聚类分析 五、聚类分析的SPSS过程 一、聚类分析概述 (一)什么是聚类分析 (二)聚类分析的目的与原则 (三)聚类分析的性质 (四)聚类分析要解决的基本问题 (五)聚类分析的基本流程 什么是聚类分析? 1、聚类分析,又称集群分析(Cluster Analysis),是一种常用的多元统计方法,是根据事物之间的相似性和相异性,将事物归入到不同的“类”中去的过程。 这里的“类”,数学上也叫“集群”,是指由某方面性质相同或相似的事物组成的集合。 2、“物以类聚,人以群分”。在科学研究工作中,最基础的一项工作就是对研究对象进行分类,以便更好地把握对象的实质规律。聚类分析能够很好地帮助人们对研究对象进行数值分类。 3、在心理学研究中, 经常遇到的分类包括两种情况:一是对研究样本或个案的分类, 即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类, 将那些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面。 也就是说,在SPSS的聚类分析功能中,可以对数据文件的“行”进行分类,也可以对数据文件的“列”进行分类。 聚类分析的目的与原则 聚类分析的目的是:辨认在某些特性上相似的事物,并将这些事物按照这些特性划分成几个“类”,使得同一类中的事物具有高度的同质性,不同类之间的事物具有高度的异质性。 上述红色字体部分体现了聚类分析的基本原则。 聚类分析的性质 1、是一种数值分类法。它与传统分类方法的不同之处在于,传统的分类方法的分类准则是事先决定的,而聚类分析是按照“自然类别”将分布于某一数量空间的点予以分类,使分类后的“类”(集群)具有同质性。 2、不是一种统计推论技术。而是将一组观察值的结构特性予以数量化的一种客观方法。因此,在推论统计中非常重要的正态性、线性和方差齐性等要求,对聚类分析几乎没什么作用。但如果变量间有多重共线性,则会影响聚类分析的结果。 多重共线性是指特征变量之间存在精确的相关关系或高度相关关系。 聚类分析要解决的基本问题 主要解决三个基本问题: 1、我们如何衡量各事物之间的相似性? 2、假设我们能衡量每一个事物与其他事物的相对相似性,我们又要如何将相似的事物归入同一“类”内? 3、当聚类完成后,如何来描述这些“类”?同时又如何知道所得到的类别(集群)是真实的,而不是某种统计上的加工品? 聚类分析的基本流程 (一)研究问题(探索性的还是验证性的?) (二)变量的选择 (三)相似性的衡量 (四)聚类方法的选择 (五)“类数” 的决定 (六)“类”的解释 (七)“类”的验证 (二)变量的选择 不论研究的目的是探索性的还是验证性的,进行聚类分析,首先应建立由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。 所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。 简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。 (三)相似性的衡量 各事物间相似程度的衡量方法有好多种,大致可分成两大类: 1、距离衡量(distance measures)。 2、关联衡量(association measures) 。 距离衡量 很多相似性的衡量是以点与点间的距离为代表。点与点间距离的计算方法有很多,根据数据的不同类型,可以选择不同的计算距离: 1、连续的等距数据: 欧几里得距离: 欧氏距离平方:公式略。 绝对值距离:两个体在每一个变量上取值之差的绝对值的总和。 切比雪夫距离:两个体在任意一个变量上取值之差的绝对值的最大值。 等等; 2、计数数据: 卡方相似性测度:公式略。 等等; 3、二分变量: 二值 欧氏距离、二值欧氏距离平方 等等。 关联衡量 1、个案之间的相似性:如果事物的属性全部以名义变量来表示时,则两事物之间的相似性可以用配合系数(matching coefficient)或相似比(similarity ratio)来衡
文档评论(0)