SPSS聚类分析课件.ppt

下载文档 降价啦

76
0
约1.28万字
约 86页
2019-09-23 发布于山东
举报
版权申诉
保障服务

SPSS聚类分析课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

结果解读 A 自动聚类表：第2列的值表示根据BIC算法计算出每一可能的聚类数（共有15种可能类数）的BIC。利用最小的BIC值所对应的聚类数作为最优聚类数的确定原则。本例中，最小的BIC是885.924，对应的聚类数是3，因此聚类自动分为3类。 B 聚类分析表：157个个案中，有152个参与聚类过程，62个分配至第1类，39个分配至第2类，51个分配至第3类，有5个缺失值。 C 类中心列表由表中数据可以看出类型1是代表价格便宜、小型、燃油效率高的经济型汽车；类型2代表价格适中、重型、具有大容量气缸且燃油效率低的汽车类型；类型3代表昂贵、大型、燃油效率适中的汽车类型 D分类变量频数表从表中可以看出，第2类全部由客车车型构成，第3类全部由轿车车型构成，第1类除了一例外，也全部由轿车构成。第1步将“cu（铜）”和“mn（锰）”聚成一类，第2步将“hemogl（血红蛋白）”聚到“cu（铜）”和“mn（锰）”类中，第3步将“ca（钙）”和“mg（镁）”聚成一类。以此类推，最后聚成一个大类。这与聚类顺序表和聚类冰柱图的分析结果是一致的。树状图 K-均值聚类（快速聚类） Q1：K是什么？A1：K是聚类算法当中类的个数 Q2：均值是什么？A1：均值是均值算法。 K均值算法是采用均值算法把数据分成K个类的算法。 K-均值聚类的基础知识 K-均值聚类的基本原理 K—均值(K—Means)聚类也称快速聚类，它要求用户事先依据主观经验或其它，将数据看做K维空间上的点，以距离为标准进行聚类分析。首先选择K个观测变量作为初始的聚类中心，根据距离最小原则将各个观测量分配到这K个类中，然后，将每一个类中的观测量计算变量的均值，这K个均值又形成新的K个聚类中心。以此类推,不断进行迭代，直到收敛或达到分析者的要求为止。 K-均值聚类的前提条件 a.聚类变量为度量变量 b.适用于大样本的聚类分析 c.对样本进行聚类，不能对变量进行聚类 d.使用欧式距离来计算距离，如果是二值变量或计数，或者想要使用其他距离或类似的统计量，则必须使用层次法。 K-均值聚类的主要优点 ①思想简单易行。 ②时间杂度接近线性。 ③对大数据集具有高效性和可伸缩性。 ④对连续型属性具有较好的聚类效果。快速聚类的主要缺点 ①依赖于初始均值的选择。 ②需事先给定聚类数K值。 ③对噪声和孤立数据敏感。 ④不适合处理离散型属性数据。 K-均值聚类的主要步骤 ⑴根据研究目的选择分析变量 ⑵指定聚类数目k，即要将样品聚为几类 ⑶确定k个类的初始类中心点，K的最小值为2，最大值不可以超过样品个数确定k个类的初始中心点有两种方法：一种是用户自己指定。另一种为系统指定方式。 ⑷根据欧式距离最短原则进行分类按照距初始类中心点距离最小原则将各观测量分派到各初始类中心点中，形成第一次迭代的k类。 ⑸ 计算每类中所有变量的均值，作为第二代的类中心点 ⑹重复⑶和⑷两步计算过程，直到达到指定的迭代次数或终止迭代的判断要求为止。 K-均值聚类的界面说明在菜单栏中依次选择“分析”、“分类”、“K均值聚类”命令,打开如图所示的“K均值聚类分析”对话框 ②选择变量。从源变量列表中选择参与聚类分析的目标变量，选入“变量”列表中；从源变量列表中选择属类变量，选入“个案标记依据”列表中，如图所示。 “聚类数”框：只有唯一的解，输入3，表示分为3类。聚类“方法”框：选择“迭代与分类”，表示聚类分析的每一步都重新确定类中心点（ SPSS默认）；选择“仅分类”，表示类中心点始终为初始类中心点（ SPSS默认），此时仅进行一次迭代。“聚类中心”框：选择“读取初始聚类中心”，可从某个SPSS数据文件读取初始聚类中心点位置；选择“写入最终聚类中心”，可将最后聚类中心点写入至某SPSS文件。聚类数≤样本数 “迭代”子对话框为对聚类终止条件的设置，设置的“最大迭代次数”，表示迭代达到或超过该值时，停止迭代过程。取值范围必须介于1—999之间。数据量越大，迭代次数就应该越多。“收敛性标准”为任何类中心的最大改变量，也可决定何时停止迭代，当距离小于该值时，停止迭代。取值范围0-1之间。它们均是判断快速聚类终止的标准。如勾选“使用运行均值” ，则在确定每一个样本的分类后，可更新聚类中心。迭代数≤样本数 “保存”子对话框设置　勾选保存“聚类成员”，输出的数据文件会新添加一个变量，且显示聚类后每一样本所属类别。“与聚类中心的距离” 是新添一个变量，输出各样本与其聚类中心的欧式距离。“选项”子对话框设置　　可勾选三种统计量，初始聚类中心：显示每个类别的变量均值的第一个估计值，此信息在结果分析报告中不用出现。 ANOVA表：显示每个聚类变量的单变量F检验的方差分析摘要表。由F统计量的相对大小，可看出每个变量在