- 3
- 0
- 约4.9千字
- 约 28页
- 2017-05-21 发布于湖北
- 举报
第九章 SPSS的聚类分析 9.1 聚类分析的一般问题 9.1.1 聚类分析的意义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。 聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。 例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。 9.1.2 聚类分析中“亲疏程度”的度量方法 1、定距型变量个体间距离的计算方式 欧式距离(Euclidean distance) 平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离 Block距离 明考斯基(Minkowski)距离 夹角余弦(Cosine)距离 用户自定义(Customized)距离 2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 注:聚类分析的几点说明 所选择的变量应符合聚类的要求 各变量的变量值不应有数量级上的差异 各变量间不应有较强的线性相关关系 9.2 层次聚类 9.2.1 层次聚类的两种类型和两种方式 层次聚类又称系统聚类,简单地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方式聚类和分解方式聚类。 Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。 分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。 SPSS中的层次聚类采用的是凝聚方式。 9.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有: 最近邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心点的距离。 离差平方和法(Ward’s method):聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。 9.2.3 层次聚类的基本操作 1、选择菜单Analyze-Classify-Hierarchical Cluster,出现窗口: 2、把参与层次聚类分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Ca
您可能关注的文档
- 第二章 误差分布和精度指标.ppt
- 第二章 误差及数据分析统计处理.ppt
- 第二章 现代心理学基本理论1.ppt
- 第二章 一种重要混合物——胶体(教学设计).doc
- 第二章 资料整理 - 长江大学.ppt
- 第二章 资料整理与描述.ppt
- 第二章:消费者知觉.ppt
- 第二章_认识世界与改造世界.ppt
- 第二章_统计数据搜集与整理.ppt
- 第二章《化学反应方向、限度和速率》测试题——.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 产后骨盆修复全流程指导手册.docx VIP
- HG∕T 2568-2021 工业偏硅酸钠.pdf
- 2025年鄂尔多斯市特岗教师招聘考试真题汇编附答案解析.docx VIP
- 24小时客服电话:010-82311666免费咨询热线:4.doc VIP
- 2020ACLS学员课课前测试中文版试题+答案.pdf VIP
- 髌骨脱位康复护理新进展.pptx VIP
- 急救医学-第四章心悸.ppt VIP
- 高中数学必修第四册第十一章综合测试01含答案解析.pdf VIP
- 2022年高考物理核心高频考点专题22 圆周运动的轻绳、轻杆模型(解析版).pdf VIP
- 马工程-中国古代文学史(第二版)上册第三编魏晋文学全套PPT课件50109.pptx
原创力文档

文档评论(0)