2.统计原理 在系统聚类中,度量数据之间的亲疏程度是系统聚类是根据个案或变量之间的亲疏程度,将最相似的对象聚集在一起。根据系统聚类过程的不同,又分为凝聚法和分解法两种。凝聚法的原理是将参与聚类的每个个案(或变量)视为一类,根据两类之间的距离或相似性,逐步合并直到合并为一个大类为止;分解法的原理是将所有个案(或变量)都视为一类,然后根据距离和相似性逐层分解,直到参与聚类的每个个案(或变量)自成一类为止。 在层次聚类中,度量数据之间的亲疏程度是极为关键的。在衡量样本与样本之间的距离时,一般使用的距离有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距离、Block距离、明可斯基距离(Minkowshi)、夹角余弦(Cosine)等。 衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下7种: 最短距离法(Nearest Neighbor) ; 最短距离法(Nearest Neighbor) ; 最长距离法(Furthest Neighbor) ; 类间平均链锁法(Between-groups Linkage); 类内平均链锁法(Within-groups Linkage) ; 重心法(Centriod Clustering) ; 中间距离法(Median Clustering); 离差平方和(Ward’s Method)。 实验内容 【例13-3】 为了了解我国主要城市废水中主要污染物排放情况,对2014年31个主要城市的工业废水排放量(万吨)、工业化学需氧量排放量(吨)、工业氨氮排放量(吨)、城镇生活污水排放量(万吨)、生活化学需氧量排放量(吨)、生活氨氮排放量(吨)等相关数据进行研究,试对所研究的变量进行聚类分析。(参见数据文件data13-3.sav)。 实验步骤 第1步 分析:根据题目要求,需进行变量聚类分析(即R型聚类),故采用系统聚类分析中的R型聚类进行处理。 第2步 系统聚类设置 按“分析→分类→系统聚类”打开“系统聚类分析”对话框。 实验结果与分析 凝聚顺序表 第1步是第 1个变量和第6个变量进行聚类,这个结果将在第2步中用到;第2步是经过第1步聚类后的变量1和 变量6与变量2进行聚类,第3步是经过第2步聚类后的变量1、6、2与变量3进行聚类,第4步是第 4个变量和第4个变量和第5个变量进行聚类,最后一步是变量1、6、2、3与变量4、5进行聚类,这6个变量经过5步聚类最终聚成一个大类。 0 4 3 104092958386.000 4 1 5 5 0 0 25871152886.000 5 4 4 5 0 2 6550570560.000 3 1 3 3 0 1 2682051292.500 2 1 2 2 0 0 1648014573.000 6 1 1 集群 2 集群 1 集群 2 集群 1 下一个阶段 首次出现阶段集群 系数 组合的集群 阶段 表13.6 凝聚计划 系统聚类的冰柱图 左侧轴为集群数标识出划分类群的个数,横轴标识个案,用一个直尺与横轴平行放置在冰柱图上,从图的最下方开始平移,可以看到:首先是生活氨氮排放量与工业废水排放量聚成一类,第2步是生活氨氮排放量、工业废水排放量和工业化学需氧量排放量聚成一类,第3步是工业氨氮排放量与生活氨氮排放量、工业废水排放量和工业化学需氧量聚成一类,第4步是生活化学需氧量排放量、城镇生活污水排放量聚成一类,最后一步所有变量聚成了一个大类。 系统聚类的树状图 用一个直尺与纵轴平行放置在冰柱图上,从图的最左方开始平移,可以看到:首先是工业化学需氧量排放与工业废水排放量聚成一类,第2步是生活氨氮排放量、工业废水排放量和工业化学需氧量排放量聚成一类,第3步是工业氨氮排放量与生活氨氮排放量、工业废水排放量和工业化学需氧量聚成一类,第4步是生活化学需氧量排放量、城镇生活污水排放量聚成一类,最后一步所有变量聚成了一个大类。 主要内容 实验一 两步聚类 实验二 K平均值聚类 实验三 系统聚类 实验四 判别分析 1、基本概念 判别分析(Discriminant Analysis)是多元统计分析中用于判别样本所属类型的一种统计方法。它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类。判别分析是应用很强的一种多元统计分析方法。 2、 统计原理 判别分析按判别组数来分,有两组判别分析和多组判别分析,按区分不同总体所用的数学模型来分,有线性差别和非线性判别。判别分析可以从不同的角度提出问题,因此有不同的判别准则,如费歇尔(Fisher)准则和贝叶斯(Bayes
原创力文档

文档评论(0)