7第七章地理系統的聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7第七章地理系統的聚类分析

地理系统的聚类分析与判别分析 §1 地理系统的聚类分析 一 概述 聚类分析又叫群分析,它是研究分类的一种统计方法。这种方法与判别分析的分类方法不同,它并不要求事先知道划分的类型与数目,而是根据研究对象(标本或变量)的相似程度进行聚合分类。分类时首先将相互间关系密切的标本(或变量)各自聚合成一个小的分类单位,然后将关系比较疏远的聚合到一个大的分类单位中去。这样就形成一个由小到大的分类系统。 通常对标本的分类叫做型聚类分析。对变量的分类叫做型聚类分析,这二种分析的基本作法都是一样的,都是选择一个“分类统计量”来表示标本或变量的相似程度,再按相似程度的大小逐步连结,最后作成一张“分类图”,用以表示标本的亲疏关系。 二、 数据的规格化 在根据相似程度(相似性统计量)进行聚合分类以前,有时需要对观测数据进行规格化变换。因为各变量的观测数据,在数值上可能相差很大,当采用不同单位时,各变量的数据可以相差几个数量级。所以如果直接采用原始数据进行计算。就会突出那些绝对值大的变量而降低了那些绝对值小的变量的作用。因此一般在计算前需对变量进行变换,使数据标准化。此外,标准化的数据也便于计算。一般在标准化之前,先进行对数变换,以使数据变幅减少且变均匀。 常用的数据标准化方法有如下二种。 1.标准差标准化 数据标准化也称做数据的标准差规格化。 设有个标本,每个标本观测个变量。得原始数据矩阵: ………………………(1) 标准化时,将数据作如下变换: ………………………………………………(2) 式中: 对标准变量而言,标本的均值为零,标准差为一。 2.极差标准化,也叫成数化、极差正规化,这时数据作如下变换: …………………………………(3) 式中和为变量的最大观测值和最小观测值。 成数化后,数据的极差为1,其它数据介于0和1之间,这样也就消除了分类过程中的因各变量数据的量纲不同而产生的干扰,此外 ,在定量观测中,通常可把一变量的出现记作1,否则记为0,这时用极差变换便于把定量数据和定性数据(离散变量)混合在一起进行计算。 三、 相似性统计量 聚类分析要求找到一些能够反映标本(或变量)间相似程度的量,这些量叫做相似性统计量。 1.型聚类分析常用的统计量 (1)距离系数 若把每个标本看成变量空间(维空间)的一个点,则二个标本之间的相似程度可用维空间中二点的距离来衡量。 ①绝对距离 ②欧氏距离 … ③明科夫斯基距离 (i,j=1,2,3,…,m)④马氏距离 (马哈拉诺比斯) 马氏距离既排除了变量之间相关性的干扰,而且也不受变量各指标量纲的影响,并且可以证明将原始数据作线性变换,马氏距离仍不变等优点 一般情况下,值越大表示二个标本的相似程度越小。当所有标本间的距离系数都算出后,就可列出距离系数矩阵。 []= ………………………(6) 式中:; 所以是一个实对称矩阵,计算时只须计算上三角元素即可。 在用上式定义距离系数时,采用直角坐标系即要求各变量之间彼此都互不相关。当变量相关时,计算结果就会受到歪曲。这时最好先采用因子分析找出几个正交因子,用它们代替原始变量计算距离系数。 (2)相似系数 若把每个标本看成维空间的一个向量,则二个标本间的相似程度可用这二个向量间的夹角余弦来表示。 设二个标本向量为: = = 则相似系数的计算公式为: = ……………………(7) 相似系数值在1和-1之间变化,如果趋于1则表示二块标本非常相似,若=1,则表示二块标本完全一样。值越小,说明标本间差别越大,=0表示二块完全不一样,为负值时,则表示负相关。 当求出各标本间的所有相似系数后,就可列出相似系数矩阵: …………………(8) 式中 = 相似系数矩阵是实对称矩阵。 (3)标本相关系数 二个标本的相关系数规定为: = 式中:; …………………………(10) 标本相关系数实际上是二个向量和-的夹角余弦: = ;= 当==0时,=。 将所有两两的标本的相关系数都求出以后,即可列出标本的相关系数矩阵阵: …………………………(11) 式中 根据标本相关系数,可对标本进行分类 2.型聚类分析常用的统计量 研究变量间的相似性统计量时,可把变量看作是维空间(标本空间)的一个点或者一个向量,也就是说可以通过原始资料矩阵各行间的相似性

文档评论(0)

stzs + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档