多元统计培训教案.pptVIP

  • 4
  • 0
  • 约1.97万字
  • 约 112页
  • 2017-02-08 发布于江苏
  • 举报
多元统计培训教案

* 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 三、模糊聚类法 继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 进入S-Plus软件以后,首先打开上述数据文件,可以用File→Import Data→From File,然后选择数据形式为*.sav(SPSS数据)。打开数据后,使用Statistics→Cluster Analysis→ Fuzzy Partitioning实现模糊聚类分析。 在Variables中选择Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值)进行Q型聚类分析,即对国家或地区进行聚类。在Option选项中指定类的个数为3。选择好变量以后,点“OK”就可以得到结果。我们还选择了Plot选项中的Cluster Plot(分类图)和Silhouette Plot(侧影图)两个图输出。得到以下结果。 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 表3.15是各类的分类系数,由于我们指定分为3类,某个样品在这3类中的某类上系数最大,则将该样品聚为该类。比如第1个样品在第1类的系数最大,说明第1个样品在第1类中。 表3.16是聚类结果。由结果可以看出,与K-均值快速聚类得到的结果是完全一致的。 图3.12是样品的分类图,由图可以看出,各类很明显地被分开。 图3.13是样品的侧影图,类似于水平的冰柱图或者树形图,可以看出三类中,各类包含哪些样品。 我们看到此例中,由模糊聚类得到的结果与K-均值聚类得到的结果是一样的。同时我们应该看到这种分类带有较强的主观性,而且分类结果也比较粗糙。一般仅适合于对大量数据的快速聚类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。 将原始数据录入SPSS,并依次点击“Analyze”→ “Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。 * 中国人民大学六西格玛质量管理研究中心 * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 对例3.5,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify” →“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入L

文档评论(0)

1亿VIP精品文档

相关文档