多元统计培训教案.pptVIP

下载本文档

4
0
约1.97万字
约 112页
2017-02-08 发布于江苏
举报

多元统计培训教案.ppt

多元统计培训教案

* 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践目录上页下页返回结束三、模糊聚类法继续使用上面的例子，希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。进入S-Plus软件以后，首先打开上述数据文件，可以用File→Import Data→From File，然后选择数据形式为*.sav(SPSS数据)。打开数据后，使用Statistics→Cluster Analysis→ Fuzzy Partitioning实现模糊聚类分析。在Variables中选择Urban（城市人口比例），Lifeexpf（女性平均寿命）、Lifeexpm（男性平均寿命）、Literacy（有读写能力的人所占比例）、Gdp_cap（人均国内生产总值）进行Q型聚类分析，即对国家或地区进行聚类。在Option选项中指定类的个数为3。选择好变量以后，点“OK”就可以得到结果。我们还选择了Plot选项中的Cluster Plot（分类图）和Silhouette Plot（侧影图）两个图输出。得到以下结果。 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践目录上页下页返回结束表3.15是各类的分类系数，由于我们指定分为3类，某个样品在这3类中的某类上系数最大，则将该样品聚为该类。比如第1个样品在第1类的系数最大，说明第1个样品在第1类中。表3.16是聚类结果。由结果可以看出，与K-均值快速聚类得到的结果是完全一致的。图3.12是样品的分类图，由图可以看出，各类很明显地被分开。图3.13是样品的侧影图，类似于水平的冰柱图或者树形图，可以看出三类中，各类包含哪些样品。我们看到此例中，由模糊聚类得到的结果与K-均值聚类得到的结果是一样的。同时我们应该看到这种分类带有较强的主观性，而且分类结果也比较粗糙。一般仅适合于对大量数据的快速聚类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究目录上页下页返回结束例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述，八项指标间存在一定的线性相关。为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实际就是对指标聚类。原始数据列于表3.15。将原始数据录入SPSS，并依次点击“Analyze”→ “Correlate” →“Bivariate”，打开Bivariate Correlations对话框，把八个变量选入Variables栏中，单击“OK”，得到这八个指标对应的相关系数，列于表3.16。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究目录上页下页返回结束 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究目录上页下页返回结束表3.16中最大的相关系数为r4，8＝0.837，将G4和G8并成一新类G9，然后计算G9与各类的相关系数，再找最大的相关系数，每次缩小一类得图3－17。我们可以看出全国城镇居民得消费结构大致可以分为三个方面，一类是各种副食、日用品及交通通信、文化教育和住房等支出，这是在消费结构中起主导作用的方面；其次是居民购买烟、酒、饮料及着装支出；粮食和水电燃料是两项很重要的消费指标，但目前在城镇居民的消费中占的比例较小，可将它们归并为同一类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究目录上页下页返回结束上面介绍的几种系统聚类方法，并类的原则和步骤基本一致，所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来，有利于在计算机上灵活地选择更有意义的谱系图。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究目录上页下页返回结束对例3.5，我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。类平均法聚类在SPSS中的操作为：点选“Analyze”→“Classify” →“Hierarchical Cluster”，打开Hierarchical Cluster Analysis对话框，将八个聚类指标选入Variables栏中，将表示地区的变量选入L

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多元统计培训教案.pptVIP