九地理系统聚类分析模型.docVIP

下载本文档

4
0
约7.2千字
约 10页
2017-09-20 发布于江苏
举报
版权申诉

九地理系统聚类分析模型.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章地理系统聚类分析模型第一节聚类分析的方法及变量模型聚类分析(Cluster Analysis)是数理统计中研究“物以类聚”的一种方法。一、地理系统分类的意义对地理系统的研究很重要的一个问题就是进行地理分区与分类。聚类分析法可避免传统分类法的主观性和任意性的特点。但应特别引起注意的是，对地理数据处理不当，或只要求方法的新颖，有时分类的结果可能与地理实际不符合。一种科学的分类法，应能正确地反映客观地理事物的内在联系，并能表达出它们之间的相似性和差异性。聚类分析法的基本特点二、聚类分析的方法聚类分析的职能是建立一种分类方法，它是将地理样品或变量，按它们在性质上的亲疏程度进行分类。描述亲疏程度的两个途径当确定了样品或变量的距离或相似系数后，就要对样品或变量进行分类，分类的方法很多，主要的两种是：分类方法分类方法（续）在进行聚类分析处理时，样品间的相似系数和距离有各种不同的定义，而这些定义与变量的类型关系极大，通常按照它们的特性分类，变量的特性有三种类型：变量特性的三种类型１、名义特性（无序多态）２、顺序特性（有序多态）它是由一个有序状态序列所确定，指标量度时没有明确的数量关系，只有次序关系，如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”，又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。３、数值特性（定量）它是由测量或计数、统计所得的量，如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。不同类型的变量在定义距离相似性测度时有很大的差异，这里主要研究具有数值特性的变量的聚类分析问题。聚类分析的分类 R型聚类分析的作用选择变量的方法: 在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值: r2 = Σri2/(K-1) 式中，K为该类的变量个数。挑选r2值最大的变量xi作为该类的典型变量。 Q型聚类分析优点第二节系统聚类分析系统聚类分析(Hierachical Cluster Analysis)是聚类分析中应用最广泛的一种方法，凡是具有数值特征的变量和样品都可以采用系统聚类法。选择不同的距离和聚类方法可获得满意的数值分类效果。系统聚类法是把个体逐个地合并成一些子集，直至整个总体都在一个集合之内为止。系统聚类法的分类步骤如下： (1)聚类前先对数据进行变换处理(假定在聚类处理之前，已经对变量进行了筛选，选择了那些相关性不很显著的而且贡献大的指标，而剔除了相关性很强的变量)。 (2)聚类分析处理的开始是各样品自成一类(n个样品一共有n类)，计算各样品之间的距离，并将距离最近的两个样品并成一类。 (3)选择并计算类与类之间的距离，并将距离最近的两类合并，如果类的个数大于１，则继续并类，直至所有样品归为一类为止。 (4)最后绘制系统聚类谱系图，按不同的分类标准或不同的分类原则，得出不同的分类结果。一、数据变换处理在聚类分析处理过程中，首先应对原始数据矩阵进行变换处理。由于在抽取样本对数据进行量度处理时，不同指标（变量）一般都有不同的量纲，并且有不同的数量级单位，为了使不同量纲、不同数量级的数据能放在一起比较，通常需要对数据进行变换处理。例１、研究世界各国森林、草原资源的分布规律，并抽取22个国家（即22个样品）数据，每个国家有４项指标，以此作聚类分析处理，原始数据见表表中所列的几个变量：森林面积、森林覆盖率、林木蓄积量、草原面积都分别有不同的量纲，而且数值的数量级也相差很大，为了在一起进行比较，需进行变换处理。所谓数据变换，就是将原始数据矩阵中的每个元素，按照某种特定的运算把它变为一个新值，而且数值的变化不依赖于原始数据集合中其它数据的新值。常用的变换方法 1、中心化变换中心化是一种标准化处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化后的数据。设原始数据矩阵为： X= 式中：m为样本数，n为变量数。设中心化后的数据为xij’ 则有： xij’ = xij - xj I=1,2,…,m j=1,2,…,n 变换的结果使每列数据之和均为０，而且每列数据的平方和是该列数据方差的(n-1)倍，任何不同两