- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 SPSS的聚类分析
聚类分析概述
(一)概念
(1)聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.
例如:细分市场、消费行为划分
聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.
聚类分析概述
两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005)
(2)例如
聚类分析概述
(3)总结
上述分类的原则:依据学生成绩的差距,差距较小的为一类
分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.
(4)SPSS中的聚类方法
分层聚类
K-MEANS快速聚类
聚类分析概述
(二)特点
聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考
严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体
一般不涉及统计量分布,也不需显著性检验
聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法
聚类分析概述
(三)注意
聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析
聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响
不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解
分层聚类
(一)思路:聚类过程具有一定的层次性
以合并(凝聚)的方式聚类(SPSS采用)
首先,每个个体自成一类
其次,将最“亲密”的个体聚成一小类
然后,将最“亲密”的小类或个体再聚成一类
重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止
可见,随着聚类的进行,类内的“亲密”性在逐渐减低
——一旦个案(变量)被聚为一类,以后分类结果不会改变
分层聚类
(一)思路
以分解的方式聚类
首先,所有个体都属于一类
其次,将大类中最“疏远”的小类或个体分离出去
然后,分别将小类中最“疏远”的小类或个体再分离出去
重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止
可见,随着聚类的进行,类内的亲密性在逐渐增强
分层聚类
(二)“亲疏”程度的衡量
(1)衡量指标
相似性:数据间相似程度的度量
距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类
(2)衡量对象
个体间距离
个体和小类间、小类和小类间的距离
分层聚类
(三)定距数据个体间的距离
把每个个案数据看成是k维空间上的点,在点和点之间定义某种距离.一般适用于定距数据
欧氏距离(EUCLID)
平方欧氏距离(SEUCLID)
马氏距离(BLOCK)
切比雪夫距离(CHEBYCHEV)
明考斯基绝对值幂距离(POWER)
分层聚类
结论:由于3.61距离最小,因此(004,005)首先聚成一类
个体距离矩阵
(三)定距数据个体间的距离
欧氏距离举例
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量。
a为样本i与样本j在所有变量上同时取1的个数;d为同时取0的个数
特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量
姓名 手机上网 无线音乐 选某门课程
张三 1 1 1
李四 1 1 0
王五 0 0 1
(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3
张三距李四近
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量
a为样本i与样本j在所有变量上同时取1的个数;d为同时取0的个数
特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量
姓名 手机上网 无线音乐
您可能关注的文档
最近下载
- 电工技能鉴定实操题库(高级工).pdf
- GB/T38058-2024民用多旋翼无人机系统试验方法.pptx VIP
- 公园绿化养护管理制度 .pdf VIP
- 2025甘肃甘南州专业化管理的村党组织书记招聘45人笔试备考试题有答案详解.docx VIP
- 2023-2024学年重庆市凤鸣山中学数学七年级第一学期期末经典试题含解析.doc VIP
- 最新公务员面试试题经典题及答案.docx VIP
- 长恨歌意象研讨分析.pdf VIP
- 2025甘肃张掖市专业化管理村党组织书记招聘32人备考试题及答案解析.docx VIP
- 江西省临川第一中学2024-2025学年高一上学期开学考试数学试题(解析版).docx VIP
- QSR质量手册(超详模板).doc VIP
文档评论(0)