- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析在福建省经济研究中的应用
扌商要:木文论述聚类分析的基础知识,并以福建省9个市2014年的地区生产 总值、金融机构人民币各项存款余额等十项综合经济指标为样木,利用SPSS软 件,对他们的综合发展水平进行类型划分及差异性程度分析.
关键词:聚类分析综合经济指标福建省经济区划分
—、引言:
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品 或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求 能合理地按各H的特性来进行合理的分类,没有任何模式可供参考或依循,即是 在没有先验知识的情况卜?进行的。聚类分析起源于分类学,在占老的分类学中, 人们主要依靠经验和专业知识來实现分类,很少利用数学工具进行定量的分类。 随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知 识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了 数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。
在屮国,区域经济发展不平衡现象由来已久,区域经济差异更是不断的扩大。 木文以9个市的10个经济指标作为研究对象,來分析本省地域经济Z间的差异 性以及相似性,评价各地区的经济发展现状。
二、基础知识
1.聚类分析的原理
聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的 属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关 系,并按这种亲疏关系程度对样木进行聚类.
常见的聚类分析方法有系统聚类法、K■均值法等.
2 ?样品间的距离和相似系数
距离的计算
描述样品间的亲疏程度最常用的是距离,设观测数据 xxj(i = 1,2,j = m)列成下列 X 矩阵的形式.
设有斤个样品,每个样品测得〃个变量,原始资料阵为
也兀12…勺
■兀 I Xn2 …Xnp
其中?为i个样品的第丿个变量的观测数据.
用给表示第,个样品的第丿个样品Z间的距离,其值越小表示两个样品接近
程度越大.
距离的一般要求:
no,对一切匸力当dy = 0o X(/) = X(j);
dij=dj「对一切i,j;
d庐%+如,对一切门北(三角不等式).
常用的距离有以下儿种:
1) 闵氏距离
?⑷=(£|X从-X』严
其中常用的距离有绝对距离和欧氏距离.
绝对距离
P
%i)=(£|心-心|)
k=\
欧氏距离
P , 9
%2) = (£|X 诙-0「严
“1
■
欧氏距离是常用的距离,但它也有不足Z处,一是它没有考虑到总体的变异 对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使 它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据 的处理是不利的?通常我们需耍先对数据近些标准化处理,然后用标准化后的数 据计算距离.
2) 马氏距离
设X,与X/?是来自均值向量为“,|■办方差为工(> 0)的总体G中的0维样品,
则两个样品间的马氏距离为
d 软 M) = (Xj_Xj)Z(X 厂 XJ
■
马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主耍不 同就是考虑到了观测变量之间的相关性?如果各变量之间相互独立,即观测变量 的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数 作为权数的加权欧几里得距离?马氏距离还考虑了观测变量之间的变异性,不再 受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.
选择不同的距离,聚类结果会有所差异?在地理分区和分类研究中,往往采 用几种距离进行计算、对比,选择一种较为合适的距离进行聚类.
(2)相似系数
在对多元数据进行分析时,相对于数据的人小,我们更好地对变量的变化趋 势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相 关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有 以下两种:
1)夹角余角
变量X,与Xj是来自均值向量为“,协方差为工(x〉0)的总体G在的卩维空
间的两个向量,则这两个向量间的夹角余弦可表示为
cos
k=l
(£x;)(£x;)
2)相关系数
相关系数经常用来试题变量间的相似性?变量X,与X.的相关系数定义为
P
k=\
在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即0型聚 类分析常用距离,/?型聚类分析常用相似系数.
4系统聚类分析方法
开始将样品或变量各视为一类,根据类与类Z间的距离或相似程度将最近的 类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并, 这样每合并一次就减少一类,不断继续这一过程,直至所冇样品(或变量)合并 为一类.
系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward 法等八种不同的方法
三、实例
原创力文档


文档评论(0)