- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 SPSS的聚类分析 聚类分析概述 (一)概念 (1)聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如:细分市场、消费行为划分 聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大. 聚类分析概述 聚类分析概述 (3)总结 上述分类的原则:依据学生成绩的差距,差距较小的为一类 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果. (4)SPSS中的聚类方法 分层聚类 K-MEANS快速聚类 聚类分析概述 (二)特点 聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考 严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体 一般不涉及统计量分布,也不需显著性检验 聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法 聚类分析概述 (三)注意 聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响 不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解 分层聚类 (一)思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 可见,随着聚类的进行,类内的“亲密”性在逐渐减低 ——一旦个案(变量)被聚为一类,以后分类结果不会改变 分层聚类 (一)思路 以分解的方式聚类 首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 可见,随着聚类的进行,类内的亲密性在逐渐增强 分层聚类 (二)“亲疏”程度的衡量 (1)衡量指标 相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 (2)衡量对象 个体间距离 个体和小类间、小类和小类间的距离 分层聚类 (三)定距数据个体间的距离 把每个个案数据看成是k维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 欧氏距离(EUCLID) 平方欧氏距离(SEUCLID) 马氏距离(BLOCK) 切比雪夫距离(CHEBYCHEV) 明考斯基绝对值幂距离(POWER) 分层聚类 分层聚类 (四)品质数据个体间的距离 简单匹配(simple matching)系数:适用二值变量。 分层聚类 (四)品质数据个体间的距离 雅科比(Jaccard)系数:适用二值变量 分层聚类 (四)品质数据个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病 分层聚类 (四)个体和小类、类和类间的距离 最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离 最长距离法(furthest neighbor): 两类间的距离定义为两类中距离最远的两个个案之间的距离 ——以上易受极端值影响 平均链锁法 两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法(between-groups linkage):只考虑两类间个案的距离——较多采用 组内平均链锁法(within-groups linage):考虑所有个案间的距离 分层聚类 分层聚类 (五)说明 聚类分析包括:个案聚类和变量聚类两种。 聚类分析中的变量选择问题 聚类结果仅是所选定变量所具数据特点的反应. 变量应和聚类分析的目标密切相关(如;客户消费行为用通话时长、通话时段、通话类型、通话流向等) 变量之间不应具有高度相关性,否则相当于给这些变量进行了加权 聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。 分层聚类 (六)基本操作步骤 1.基本操作 A.菜单选项: analyze-classify-hierachical cluster B.选择参与聚类分析的变量入variables框 C.选择一字符型变量作为个案的标记变量 (label cases) D.选择个案聚类还是变量聚类 分层聚类 (六)基本操作步骤 2. 选择距离计算方法(method选项) cluster method:计算类间距离的方法 meas
您可能关注的文档
最近下载
- 北京市2019年中考英语真题(含答案).pdf VIP
- 2022年新高考政治真题试卷(山东卷).pdf VIP
- 2025年最新详版征信报告个人信用报告样板模板word格式新版可编辑.docx VIP
- 辽宁省大连市甘井子区2024-2025学年上学期七年级 月考英语试卷(10月份).docx VIP
- 水土保持监督管理培训课件.pptx VIP
- 《现代汉语》各章练习题答案汇总 .pdf VIP
- 输变电工程环境保护和水土保持全过程管控培训课件.pptx VIP
- 生产建设项目水土保持方案管理办法培训课件.pptx VIP
- 培训课件_1411dxs小天鹅纯臻2.0新品1411DXS系列.pdf VIP
- 2022年内蒙古农业大学硕士研究生入学考试公共管理专业综合基础考研真题.pdf VIP
文档评论(0)