- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
气候统计第三2聚类分析
§3.3 聚类分析概要 聚类分析是研究多要素的客观分类方法,即运用数学方法对不同的样品进行数字分类,定量地确定样品之间的亲疏关系,并按照它们之间的相似程度,归组并类,以便客观分类的一种统计分析方法。它同判别分析同属分类问题,但前提不相同,所给的样本类型和类型数都是未知的。气象学中存在许多分类问题,如气候分类区划、天气过程分类、环流分类、预报因子的合并归类、相似年的确定等。 一、相似性指标统计量 1.样品与分类指标 对与研究对象有关的m个变量作n次观测,得样本矩阵, 称每行为一个分类指标,每一列为一个样品,对样品进行分类;每个样品包含m个指标,即样品的特征用m个指标来描写,可以是一个测站的m个指标的时间分布,也可以是同一指标的m个测站的时空分布。 2.距离和相似系数 进行分类,要将特征相似的样品聚为同一类,首先要定义样品之间亲疏程度的数量指标。 A、距离 样品看作m维空间的点,以某种形式定义点与点之间差异大小(不完全是地理或几何距离),数学上的距离可以有不同定义,但要满足4个条件 1)dij=0时,样品i和j 恒等(dii=0) 唯一性和单一性 2)dij≥0, 非负性 3)dij=dji 对称性 4)dij≤dik+dkj 三角不等式 在距离指标中,当样品指标不是同一变量时,各变量对距离的影响与它们的量纲有关,如气温为101,气压为103量级,气压变化对距离的影响远大于气温。克服这一缺点的方法是对各指标标准化 §3.4 系统聚类法(逐级归并法) 系统聚类法是聚类分析中使用最多的方法,其基本思路是:先将n个样品各自看成一类,然后规定样品之间的距离(或相似系数)和类与类之间的距离,开始,将每个样品各自成一类,根据距离选择最相似的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,依次下去,直至所有样品并成一类,或各类之间的距离大于给定阈值T为止。 包含步骤 (1)计算n个样品两两间的距离{dij} (2)构造n个类,每类只包含一个样品 (3)合并距离最近(最相似)的两类为一个新类 (4)定义类间距离,计算新类与当前各类的距离。若类的个数等于1,转到(5)。否则回到步骤(3)。 (5)画聚类图 (6) 决定类的个数和类 使用不同的类间距离,便得到不同的系统聚类法。如最短距离法、最长距离法、重心法等。 2、定义类间距离 最长距离法、重心法等其他系统聚类法的步骤相同,仅在计算类间距离时的定义不同。最短距离法也可用于变量的分类,分类指标也可用相似系数,在用相似系数时,要找相似系数最大的两类合并,即总是最相似的两类合并。 下面看一实例: 例 ,某地用4个因子表示气候闷热状况,分别是 x1:日平均温度 x2:14时气温 x3:14时相对湿度 x4:日最低气温 试根据下表所列相似系数将因子分类 解:G1和G2的相似系数最大,R1,2=max,表明两者最接近,先将它们并成G5。 计算G5与G3,G4的相似系数分别为: 逐步聚类法 略 * * 常用距离 Minkowski距离: 绝对距离 Euclid距离 2.Mahalanobis距离 马氏距离考虑了类型总体的内部结构,更加合理,但计算繁琐。 B 相似系数 1) 将样品i、j看作m维空间的向量,常用于要素场的相似。 包括空间点的相似和时间点的相似度量。 二、类与类的特征 1,类的定义 由于客观事物的千差万别,在不同问题中,类的含义是不尽 相同的,给类下严格地定义是不容易的,有不同的定义。如: 定义1:T为一给定的阈值,如果对任意的 ,有 ,则称G为一个类。 定义2:对阈值T,如果对于每一个 ,有 ,则称G为一个类。 定义3:对阈值T,如果对于每一个 , 一定存在 使得 ,则称G为一个类。 2.类的距离 由于类的形状是多种多样的,所以类与类之间的距离也有多种 计算方法,设 中分别有l和m 个样品,它们之间的距离 用D(p,q)表示,常用定义有: 最短距离法: 即为 中最邻近的两个样品的距离。 2。最长距离法: 即为 中最远的两个样品的距离。 3.重心法: 它为两个类的重心 间的距离 4.类平均 法: 它等于 中所有任意两个样品距离的平均。 -3 2 2 3 3 4 3 5 x2 -1 -3 -2
原创力文档


文档评论(0)