高级统计学作业聚类分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国各地区消费价格增长水平的聚类分析 摘要:针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。聚类结果为制订有针对性的地区消费市场战略提供依据。 关键词:SPSS;聚类分析;消费水平。 1.引言 由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐,导致各地区的工资水平和消费价格增长水平的不同。因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。聚类分析和判别分析是是进行以上分析的两个重要的方法。 1.1聚类分析[1] 定义:聚类分析又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。 聚类分析的基本思想:我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。 1.1.1 系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。在本例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种: (1) 最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值; (2) 最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3) 组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值; (4) 组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内; (5) 重心距离法(Centroid clustering),是指两个类中心点之间的距离; (6) 离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 1.1.2 K-均值法(快速聚类法) K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。 快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。 1.1.3 数据来源 本文针对我国各省(直辖)市的2009年度消费价格分类指数数据[2],考虑到数据的可得性和来源的权威性,选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。聚类结果将为制订有针对性的地区经济发展战略提供依据。表-1数据来源于《中国统计摘要-2010》,利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。 表-1:国内 31个省、直辖市、自治区的9项消费价格指标数据 地区 居民消费价格指数 食品 烟酒及用品 衣着 家庭设备用品及服务 医疗保健和个人用品 交通和通信 娱乐教育文化 居住 北 京 98.5 102.4 102.2 98.4 100.3 99.9 95.9 97.6 89.8 天 津 99.0 101.2 104.7 97.3 99.7 102.6 96.3 96.1 94.9 河 北 99.3 101.0 101.9 96.4 99.8 101.5 97.0 97.8

文档评论(0)

189****1013 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档