北航数理统计大作业聚类分析..docx

下载文档 降价啦

14
0
约8.01千字
约 14页
2017-01-04 发布于重庆
举报
版权申诉
保障服务

北航数理统计大作业聚类分析..docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

北航数理统计大作业聚类分析.

应用数理统计聚类分析与判别分析（第二次作业）学院：姓名：学号：2015年12月我国部分城市经济发展水平的聚类分析和判别分析摘要：本文基于《中国统计年鉴》（2014年版）统计数据，统计全国各省市居民消费情况，包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标，利用统计软件SPSS综合考虑各指标，对所选地区进行K-Means 聚类分析，利用Fisher 线性判别待判地区类型，进一步验证所建模型的有效性。关键字：聚类分析，判别分析，SPSS，各省市居民消费引言改革开放以来，我国经济飞速发展，居民生活水平不断提高，随之，居民的消费也逐渐增加，对于各地区的居民收入和消费的分析，一定程度上能够体现该地区的经济状况，有助于相关政策的制定。相关统计基础理论2.1 聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类，其特点是：在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改，直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多，本文使用的是K-Means 算法。K-Means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。K-Means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言，k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。2.2判别分析判别分析是市场研究的重要分析技术，也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息，确定分类变量与其它多元变量之间的数量关系，建立判别函数，并利用判别函数构建Biplot二元判别图（概念图）。同时，利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法，例如：市场细分研究中，常涉及判别个体所属类型的问题，也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念，判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯（Bayes）判别、费舍尔（Fisher）判别等几种常用方法。距离判别的基本原理是：首先对样本到总体G之间的距离进行合理规定，然后依照“就近”原则判定样本的归属，常用马氏距离（Mahalanobis）规定为：式中为p元总体G的协方差阵，x是取自G的样品，则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品y到各个总体的距离可以用欧式距离度量，即：由此导出Fisher判别规则为：，则本文及使用Fisher判别建立线性判别函数进行距离判别。模型建立3.1 设置变量本文综合考虑了评价各地区居民的收入支出情况，选取能够反映一个省（市）收支状况的主要因素，包括各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费，共4项因素：X1：各地区农村居民人均纯收入X2：各地区农村居民人均现金消费X3：各地区城镇居民人均可支配收入X4：各地区城镇居民人均现金消费3.2 数据收集和整理本文所有数据来源于《中国统计年鉴（2014）》，选取2013年度31个省市居民收支状况数据进行模型建立及分析，初始数据见表1所示。其中浙江、广东、重庆未参与聚类分析和判别分析，而是作为了判别分析验证数据。表1 各地区居民收支状况编号地区农村居民人均纯收入/元农村居民人均现金消费/元城镇居民人均可支配收入/元城