高级统计学作业聚类分析.pdfVIP

  • 6
  • 0
  • 约2.54万字
  • 约 36页
  • 2020-12-16 发布于江苏
  • 举报
全国各地区消费价格增长水平的聚类分析 摘要:针对我国各省(直辖)市的 2009 年度消费价格增长水平数据, 选取 9 个经济指标进行系统聚类分析,得到我国 3 类不同的地区消费 价格增长水平类型。聚类结果为制 有针对性的地区消费市场战略提 供依据。 关键词:SPSS;聚类分析;消费水平。 1.引言 由于传统的经济发展起点不同,加上地域、资源、技术和政策等条 件的差异,各个地区的经济发展水平高低 齐,导致各地区的工资水 平和消费价格增长水平的不同。因此,对各地区消费价格增长水平进 行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针 对性地制 地区经济发展战略,对促进国民经济协调发展有重要意义。 聚类分析和判别分析是是进行以上分析的两个重要的方法。 1.1 聚类分析[1] 定义:聚类分析又称群分析、点群分析。根据研究对象特征对研究 对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得 同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的 异质性。 聚类分析的基本思想:我们所研究的样品或指标(变量)之间存在 程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具 体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计 量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为 一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系 密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单 位,直到把所有的样品(或指标)聚合完毕。 1.1.1 系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成 一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进 行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。 重复这一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚 类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开 来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似 的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的 变量参与其他分析,实现减少变量个数、降低变量维度的目的。在本 例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种: (1) 最短距离法(Nearest Neighbor ),是指两类之间每个个体距离 的最小值; (2) 最长距离法(Farthest Neighbor),是指两类之间每个个体距离 的最大值; (3) 组间联接法(Between-groups Linkage),是指两类之间个体之 间距离的平均值; (4) 组内联接(Within-groups Linkage),是指把两类所有个体之间 的距离都考虑在内; (5) 重心距离法(Centroid clustering),是指两个类中心点之间的 距离; (6) 离差平方和法(Ward法),同类样品的离差平方和应当较小, 类与类之间的离差平方和应当较大。 1.1.2 K-均值法(快速聚类法) K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它 将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标, 并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产 生指定类数的聚类结果,而类数的确定离不开实践经验的积累。 快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点 (聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最 近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中, 应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的 唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本 所属的类会不断调整,直到最终达到稳定为止。 1.1.3 数据来源 本文针对我国各省(直辖)市的 2009 年度消费价格分类指数数据 [2],考虑到数据的可得性和来源的权威性,选取 9 个消费指标进行系统 聚类分析并假定上年相应价格指数为 100,得到我国 3 类不同的地区消 费价格增长水平类型。聚类结果将为制

文档评论(0)

1亿VIP精品文档

相关文档