聚类分析论文.pdf

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析及其在新疆经济研究中的应用 孙鹿梅 (伊犁师范学院数学与统计学院新疆 伊宁 835000) 摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K -均值法,并以新疆十四个地州市 2009 的地区生产总值、人均地区生产总 值等十项综合经济指标为样本,利用 SPSS 软件,对他们的综合发展水平进 行类型划分及差异性程度分析. 关键词 :聚类分析;SPSS 软件;综合经济指标;新疆经济区划分 一、引言 聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集 成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描 述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的 样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、 机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为 数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经 济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方 第 1 页 共 26 页 面. 在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分 类指导.如何进行经济区划分呢?利用世界著名统计软件 SPSS (Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容 很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图 论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K -均值 法. 由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由 于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆 各地区的不同实施不同的经济政策.我分别用了 SPSS 的聚类分析中的系统聚类 法和K -均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经 济政策做依据. 二、基础知识 2.1 聚类分析的基本思想 由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品 的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根 据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中 第 2 页 共 26 页 的个体有较大的相似性,不同类中的个体差异较大. 2.2 聚类分析的种类 聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情 况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用 来对变量进行分类.对样品的分类常称为 型聚类分析,对变量的分类常称为R Q 型聚类分析. 2.3 聚类分析的原理 聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身 的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏 关系,并按这种亲疏关系程度对样本进行聚类. 常见的聚类分析方法有系统聚类法、K -均值法和模糊聚类法等. 2.3.1 聚类要素的数据处理 假设有 m 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同 的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围 的数据能够放在一起比较,通常需要对数据进行变换处理. 在聚类分析中,常用的聚类要素的数据处理方法有如下几种. ① 总和标准化 第 3 页 共 26 页 x x ' 

文档评论(0)

137****0427 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档