北航2012聚类分析大作业.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北航2012聚类分析大作业

应用数理统计第二次课程论文学号:姓名:2012年11月我国各省市城镇居民消费水平的聚类分析和判别分析摘要为了研究中国各地区城镇居民消费水平的差距,本文选取中国27个省(直辖市、自治区)的城镇居民家庭平均每人生活消费支出作为研究对象,针对食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健等七个方面的人均消费支出的具体数据,利用SPSS软件进行了聚类分析和判别分析。使用快速聚类分析得到的结果是:选取的27各地区城镇消费水平可以分为3类,高水平区(一共3个)、中等水平区(一共7个)和低水平区(一共17个)。对比2010年中国各省市人均GDP排名的情况,分类结果在直观上看具有可信性。对聚类分析的结果,利用逐步判别分析进行判别。未知类别的4个地区,1个被分为第2类(高水平),1个被分为第1类(中等水平),2个被分为第3类(低水平)。由此可知,本文选取的判别方法具有理想的历史回报率和良好的处理预测能力。关键字:城镇居民消费支出 快速聚类分析 逐步判别分析 回报率1.引言1.1 研究背景自改革开放以来,我国经济得到了突飞猛进的发展,城市建设异常迅速,城镇化的速度也在逐渐增长。城镇居民人口的狂飙式增加,将会不可避免的带来一些问题。这些问题对于城市居民的生活会有什么样的影响,居民的生活质量与以前相比是提高了还是下降,城市化的道路到底是利大于弊还是弊大于利,不同发展水平城市的居民生活又有什么差距。中西部省份存在着相当大的不均衡,通过对不同省份城镇居民消费情况的对比,对不同地区和省份的消费水平进行合理的分类和分析,具有较大的现实意义。内容、方法和结论根据《中国统计年鉴2011》中的数据,本文选取中国27个省市的城镇居民家庭平均每人生活消费支出(食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健)作为研究对象,利用SPSS软件进行了聚类分析和判别分析。聚类选择的是k-Means快速聚类分析法,判别使用的是逐步判别分析方法。选取的27个地区农民消费水平可以分为3类,高水平区、中等水平区和低水平区。对比2010年中国各省市城镇居民人均GDP排名的情况,分类结果在直观上具有可信性。逐步判别分析得到结果:未知类别的4个地区,1个被分为第2类(高水平),1个被分为第1类(中等水平),2个被分为第3类(低水平)。由此可知,本文选取的判别方法具有理想的历史回报率和良好的处理预测能力。2 解决问题的方法和计算结果2.1 数据说明根据《中国统计年鉴2011》中的数据,选取全国31个省、市、自治区(27个作为初始案例,另外4个作为未知案例)2010年的城镇居民消费支出的6个指标的数据资料,进行聚类分析、判别分析,确定各地区城镇居民消费的类型。这7个指标依次为食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健。数据分析之前进行标准化,目的是消除各变量间由于量纲不同或数量级单位不同导致距离或相似系数的计算结果有较大的偏差,难以进行客观分析。2.2 聚类分析2.2.1 快速聚类分析简介快速聚类是一类聚类方法的统称,其特点是:在在确定类别数量基础上,想给定一个粗糙的初始分类,然后按照某种原则进行反复修改。直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means 算法。 K-Means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。? K-Means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2.2具体SPSS软件操作首先将收集的数据导入SPSS软件中,如图所示导入数据一览导入数据之后,选择“分析→分类→K-均值聚类”,执行K均值快速聚类过程,主界面如图所示,在此指定分析变量、模型方法、初始类中心等参数。本文一共选取了食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健七个方面的人均消费支出(单位:元)作为聚类变量。聚类数设为3。2.2.3 运行结果(1)初始聚类中心初始聚类中心聚类123食品5790.77777.03052.6衣着1281.251794.061205.89居住1606.272166.221245.00家庭设备用品及服务972

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档