SPSS指导-聚类分析-附实例操作.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
各地区各行业工资水平的分析 (2009年数据) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1. 研究背景及意义 1.1 研究背景 工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发 展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的 水平。 1.2 研究意义 1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。 2. 将平均工资水平划分为3 类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供 宏观上的方向指引。 2. 数据来源与描述 2.1 数据来源—— 《中国劳动统计年鉴─2010》 (URL:/Navi/YearBook.aspx?id=N2011010069floor=1### ) 主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司 出版社:中国统计出版社 简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。 本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统 计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。 2.2 数据描述 本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要 行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地 产业、农林牧渔业等等,具体数据格式参见图-0。 图-0 3. 分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高 描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等) 的计算和描述开始的,并辅助于SPSS 提供的图形功能,能够把握数据的基本特征和整体的分布特征。 在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业„„)工资的均值、 极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。 3.2 通过聚类分析方法,判断哪些地区平均工资水平较高 聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医 学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性 质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间 具有相似性,不同类间个体特征的差异性较大。 在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是 K-均值法(快 速聚类法)。 3.2.1 系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标) 的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再 进行合并。重复这一过程,直到将所有的样本 (或指标)合并为一类。 系统聚类分为Q 型聚类和R 型聚类两种:Q 型聚类是对样本进行聚类,它使具有相似特征的样 本聚集在一起,使差异性大的样本分离开来;R 型聚类是对变量进行聚类,它使差异性大的变量分 离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分 析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是Q 型聚类。 类与类之间距离的计算方法主要有以下几种: (1) 最短距离法 (Nearest Neighbor),是指两类之间每个个体距离的最小值; (2 ) 最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3 ) 组间联接法(Between-groups Linkage ),是指两类之间个体之间距离的平均值; (4 ) 组内联接(Within-groups Linkage ),是指把两类所有个体之间的距离都考虑在内; (5 ) 重心距离法(Centroid clustering ),是指两个类中心点之间的距离; (6 ) 离差平方和法(Ward 法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当 较大。 3.2.2 K-均值法(快速聚类法) K-均值法(又称快速聚类法),是由MacQueen 于1967 年提出的,它将数据看成K 维空间上的 点,以距

文档评论(0)

wx171113 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档