社会科学统计软件包:SPSS(八) 聚类分析.pptVIP

社会科学统计软件包:SPSS(八) 聚类分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SPSS for Windows SPSS SPSS for Windows 《聚类分析》 聚类分析 根据分类对象不同,分为样本聚类和变量聚类。 样本聚类——Q型聚类 变量聚类——R型聚类 聚类过程(Analyze→Classify): TwoStep Cluster 两步聚类,是一个探索性的分析工具,可以自动确定最好的分析结果 K-Means Cluster 快速聚类分析过程,仅对观测量进行快速聚类 Hierarchical Cluster 进行样本聚类和变量聚类的过程 大气科学学院本科教程 SPSS for Windows 两步聚类 两步聚类是一个探索性的分析工具,为揭示自然的分类或分组而设计,其特点: 分类变量和连续变量都可以参与两步聚类分析 该过程可以自动确定分类数 可以高效地分析大数据集 用户可以自己制定用于运算的内存容量 在聚类过程中,除了使用传统的欧氏距离外,为了处理分类变量和连续变量,该过程还使用似然距离测度,它要求模型中的变量是独立的。 分类变量是多项式分布,连续变量是正态分布。 可使用相关过程分析、Means过程来检验变量之间的独立性;用Explore过程检验连续变量的正态性。 大气科学学院本科教程 SPSS for Windows 所谓两步聚类,就是: 第一步对每个观测量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。 第二步,使用凝聚算法对特征树的叶节点分组。凝聚算法可用来产生一个结果范围。为确定最好的类数,对每一个聚类结果使用BIC判据或AIC判据作为聚类判据进行比较,得出最后的聚类结果。 大气科学学院本科教程 SPSS for Windows 大气科学学院本科教程 SPSS for Windows 大气科学学院本科教程 SPSS for Windows 分类型变量 连续型变量 确定自动聚类算法如何确定类数 指定Schwartz施瓦茨的贝叶斯判据(BIC) 指定Akaike信息判据(AIC) 连续变量的计数 确定类数 输入一个正整数,指定该过程应该考虑的最大类数 输入一个正整数,作为要求聚成的类数 选择计算两类间的相似程度的算法 该算法要求所有变量彼此独立,连续变量正态分布 欧氏距离法测度两类之间的“直线”距离,当所有变量都是连续变量时才适用 大气科学学院本科教程 SPSS for Windows 允许指定一个聚类过程中使用的最大存储空间 选择对加入特征树的观测量的处理方法 给一个百分比,控制树的成长 聚类算法要求连续变量先进行标准化,便于节省时间 聚类算法设置聚类特征树(CF)的特殊性,必须谨慎! 初始距离变化极限 每个叶子节点的最大分枝 最大树深度 最大可能的节点数 更新聚类模型 大气科学学院本科教程 SPSS for Windows 提供显示聚类结果的选项 显示两个表,描述每一类中的变量,一个表中对连续变量分类给出均值标准差,另一个表分类给出频数 给出每类观测量数的表格 根据主对话框中所选择的判据,对不同的类数显示一个包括AIC或BIC值的表格,该表仅在类数是自动确时才提供。如果类数是固定的,则该设置被忽略,不输出。 保持变量到工作数据文件 以XML格式输出最终的聚类模型和CF树 最终聚类模型输出到指定的文件 保持当前聚类树的状态并可以在以后用新数据修改它 快速样本聚类 当要聚成的类数确定时,使用QuickCluster过程可以很快将观测量分到各类中去。 其特点是处理速度快,占用内存少,适用于大样本的聚类分析。 大气科学学院本科教程 SPSS for Windows 大气科学学院本科教程 SPSS for Windows 大气科学学院本科教程 SPSS for Windows 指定分析变量 指定标识变量 确定分类数 选择聚类方法 使用K-Means算法不断计算类中心 根据初始类中心进行聚类 要求使用指定数据文件中的观测量作为初始类中心 要求把聚类结果中的各类中心数据保存到指定的文件中 大气科学学院本科教程 SPSS for Windows 设置迭代参数 限定K-Means算法中的迭代次数 指定K-Means算法中的收敛判据 若设置了以上两个参数,在迭代过程中只要满足其一即停止迭代 大气科学学院本科教程 SPSS for Windows 大气科学学院本科教程 SPSS for Windows 选择要求输出的统计量 初始类中心 方差分析表 每个观测量的分类信息 缺失值的处理方法 将带有缺失值的观测量从分析中剔除 只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除 大气科学学院本科教

文档评论(0)

学习让人进步 + 关注
实名认证
文档贡献者

活到老,学到老!知识无价!

1亿VIP精品文档

相关文档