- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析方法与SPSS
聚类分析方法;(一) 聚类分析的一般问题;理解聚类分析的关键
(1)首先不知道数据到底是来自几个类;
(2)第二不知道每个数据到底是那一类;
(3)第三也不知道类和类的界限是什么;
(4)所谓亲疏程度就是两个数据(变量)综合考虑各指标后的接近程度;;2. 聚类分析中的“亲疏程度”的度量方法;首先要将数据看成空间中的一个点,以此来定义距离,距离的定义有很多,可以分为欧氏距离,明氏距离,夹角余弦等;
根据变量的类型不同,距离的定义方式也不同,比如定距型变量和计数型变量的距离就不一样;;3. 聚类分析的几点说明; 常见的聚类分析方法有两种:层次聚类和K-Mean聚类,这两种方法SPSS都提供菜单操作。;(二) 层次聚类;凝聚方式聚类的思想是首先每个样本自成一类,然后按照某种方法度量个体间的亲疏程度,将其中最亲密的个体聚成一小类,然后以此继续下去,直到最后只剩下一个类;
分解方式聚类的思想是首先所有个体都成为一个大类,然后按照某种方法度量亲疏程度,将最疏远的个体分离除去形成两个类,以此继续下去,知道每一个个体自成一类;
在SPSS中采用凝聚方式的聚类方法;2. 个体与小类,小类与小类之间的亲疏程度的度量方法;“Cluster”共有七种进行聚类的方法:
①“Between-groups linkage”类间平均法,当两类之间所有个案之间距离的平均值最小时,这两类可以合并为一类。这是系统缺省的方法。
②“Within- groups linkage”类内平均法,当合并后所有个案的距离的平均值最小时,这两类可以合并为一类。
③“Nearest neighbor”最短距离法,当两类之间最近的个案之间的距离最小时,这两类可以合并为一类。; ④“Furthest neighbor”最长距离法,当两类之间最远的个案之间的距离最小时,这两类可以合并为一类。
⑤“Centroid clustering”重心法,当两类中重心的距离最小时,这两类可以合并为一类。
⑥“Median clustering”中心法,当两类中心的距离最小时,这两类可以合并为一类。
⑦“Wards method”离差平方和法,当合并后类内部的各个个案距离的离差平方和最小时,这两类可以合并为一类。;啤酒成分和价格数据;分层聚类的命令:执行
[Analyze][Classify][Hierarchical Cluster],;; 选择变量进入“Variable(s)”中
选择聚类类型“Cluster”(单选项):
样本聚类Cases(“Q聚类”)或变量聚类Variable(“R聚类”)
“display”中可以选择(复选项) :
“Statistics”只计算统计分析。
“plots”只产生图像。;按钮“Statistics”将产生输出统计量:;“Agglomeration schedule”为生成并类过程表。在表中将显示并类过程中的并类信息,包括:并类距离值、在相应值上的并类类别和类间关系。可以根据并类过程表了解聚类过程。
“Proximity matrix”产生测度矩阵。测度矩阵可以显示出并类过程中各类之间的距离或相关性。
“Cluster Membership”聚类成员关系表。在并类过程中,各个个案被并到哪一类:;“None” 不显示聚类成员关系表。
“Single solution”显示指定类数时聚类成员关系表。指定的类数应当是小于等于个案个数,大于等于1的整数。当聚类到达此指定的数值时,将在输出窗口显示各个个案所属的类。
“Range of solutions” 显示聚类成员在指定并类范围内所属类的关系表。指定的范围也应当是在个案数与1之间的整数。
;按钮“Plots”将产生聚类图形;“Dendrogram”生成树状图
“Icicle”生成冰柱图
“All clusters”全过程冰柱图
“Specified range of clusters”指定并类范围冰柱图
“None”不生成冰柱图
“Orientaton”图形取向:
竖直的Vertical和水平的Horizontal;按钮“Method”为聚类方法选择;定义样本点间的相似度。
;选择对变量作标准化处理的方法;;(三) K-Means 聚类;K均值法(快速聚类、动态聚类);1. K-Means聚类分析的核心步骤;在Method框中是否调整类中心点,其中Iterate and classify表示由SPSS自动调整类中心,Classify表示在迭代中不更改类中心;
通过Iterate按钮去定终止聚类的条件,Maximum iteration 标志最大迭代数
文档评论(0)