spss--判别分析.ppt

下载文档 降价啦

7
0
约5.37千字
约 52页
2016-12-29 发布于贵州
举报
版权申诉
保障服务

spss--判别分析.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三节 K均值聚类分析（K-means Cluster）第四节系统聚类（Hierachical Cluster）。第五节判别分析discriminant过程选入分组变量，点击define range 定义分组变量的范围选入进行判别分析的变量选择所有自变量全部进入判别方程用逐步方法筛选变量进入判别方程选择符合某变量取值条件的观测进行分析，点击value设定符合条件的取值输出统计量各组的均数和标准差各变量在各组间的单变量方差分析表，有助于判断各变量是否对判别有作用组间协方差齐性检验变量未标准化的判别系数，可方便手工回代考核，或对新样品手工计算判别输出矩阵组内相关系数内组内协方差阵各组协方差阵总协方差阵如果样本时随机抽样得到的，可选择用样本估计值估计先验概率，即样本中每组例数除以总数。默认各类先验概率相等用样本估计值估计先验概率输出判别考察结果输出每一例判别后的所属类别，即回顾性考核输出判别错判率结果表交叉验证考核结果选择计算所用的协方差阵组内协方差阵用变量均值代替缺失值选择计算所用的协方差阵组内协方差阵各组的协方差阵输出判别图所有类在一张图纸上各类图单独输出领域图创建新变量，表示用判别函数判别的各样品所属类别，对应于回顾性考核创建新变量，表示各观察单位的判别得分，两类判别时得分者高者为所属类别，多类判别时不如概率值直观创建新变量，表示各观察单位被判入每一类的概率，最大概率值对应的类别为判定所属类别。四、输出结果解释 2 这部分输出了逐步分析步骤，可以看到，最后变量vision、at、age、bv进入模型，用了建立判别函数（表15-31 、 15-32、 15-33）表15-31 表15-32、表15-33 3.这部分输出了判别系数所对应的特征和占总特征值的百分比，以及两个判别函数的无统计学意义的检验。可以看到，建立两个判别函数，第一个函数的判别作用已占78% （表15-34、15-35）。表15-34 表15-35 4、输出两个判别函数的判别系数。以及判别变量和判别函数间相关系数（表15-36、15-37）。表15-36 表15-37 由上表可将两个标准化典型判别函数写出： Y1=0.524age+0.908vision-0.525at+0.316bv Y2=-0.795age+0.313vision+0.726at+0.479bv 表15-38 表15-39 5, 输出每类总体的重心指标。可以计算观察单位到各类重心的距离，可按距离最近原则将观察单位分类（表15-38） * 一、系统方法回顾 K均值聚类分析，也称快速聚类或动态聚类法，适用于较大样本时的样品聚类。该法要求资料中聚类指标均为数值变量，可使用欧氏距离（计算两类间的直线距离，只有当所有变量都是数值变量时才可选用）描述样品间的相似度。此外，研究者必须事先知道应该分为多少类，即必须事先指定期望的聚类数K。 K均值聚类分析的具体步骤： 1.先选择K个初始凝聚点，把每个凝聚点作为此后聚类的核心。 2. 计算样本中每个观测到这些凝聚点的距离，按照距离最近原则将每个观测分类到凝聚点所代表的类中，得到一个初始分类方案。 3. 计算g个初始分类的“重心”——类内各样品观测值的均值作为新的凝聚点 4. 重复步骤2，直到前后两次的类均数变化小于一个给定的临界值或分类方案没有变化为止。在SPSS中，用户除了可以选择不断迭代更替类中心的聚类方法，也可以选择不要迭代更新类中心，而仅仅根据初始凝聚点聚类，将其作为最终的分类结果。二、SPSS操作指南 15-2 用耳长（EC）、耳宽（EK）、耳外展距(EZ)、耳指数（EI）和外展指数（AI）5个数值变量对300份样品聚类。原始数据例15-1 迭代更新聚类：是在初始凝聚点基础上不断迭代聚类，形成新的凝聚点，直到前后凝聚结果没有变化为止，系统默认不用迭代聚类：是在初始凝聚点基础上聚类，作为最终聚类结果。 1.K-means Cluster 过程主对话框指定数据文件中的观察值作为初始凝聚点将最终聚类的凝聚点坐标写入指定数据文件指定最大迭代次数，规定为1到999之间的整数指定收敛准则，系统默认为初始凝聚点间最小距离的2% 选此项后，每聚类一个样品，就会重新计算类中心 2.Iterate子对话框类内各样品观测值的均值作为新的凝聚点创建新变量，说明每个样品的聚类结果，新变量将出现在当前数据集中创建新变量，说明每个样品和凝聚点的欧式距离，新变量将出现在当前数据集中 3 Save子对话框 4 Options 子