气候统计第三章判别分析及聚类分析.pptVIP

  • 1
  • 0
  • 约2.11千字
  • 约 62页
  • 2019-07-28 发布于广东
  • 举报

气候统计第三章判别分析及聚类分析.ppt

第三章 判别分析与聚类分析 在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或现象划分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相近程度,划分为若干种类型,这称为聚类分析;数量统计上,即分析众多的样本 划分确认来自几个不同的总体。 另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(火险等级1、2..5)将出现,则称为判别分析,也称为统计分辨法。 判别分析与聚类分析均属数字分类。 §3.1 费歇(Fisher)判别准则与分析 一、Fisher判别准则 判别分析是已知有两个或更多的总体(类型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,使我们能将某个新的个体归属正确的总体,而事先并不知道该个体来自哪个总体。 综上所述,离散程度小,期望值差异大,表明两总体样本重叠部分少,x出现时事件(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则: 希望用一个综合指标y,它在两总体中方差最小,而条件期望值差异最大。 在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影后,两总体能够最大分离。 四、判别效果的显著性检验 在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元变量在统计上差异不显著,判别就没有价值,因此判别效果显著性检验就是检验两总体的差异是否显著。 例 由表所列资料,根据Fisher准则建立判别函数并检验效果。 解: §3.2 Bayes判别准则与分析 二、正态假设下的Bayes判别函数 三、利用马氏距离作多级判别 对于判别方程中的单个因子xk的显著性,可用t检验的方法检验它在两个总体中的平均值是否显著。 遵从自由度为 的t分布。 2.对于m 个因子的共同的分辨效果,则采用马哈拉诺 比斯距离作为两总体差异的指标。 马氏距离 由 代入 遵从 由m个变量 组成m维空间,用 表示, 来自K个总体 已知每个总体发生的先验概率(气候概率)分别为 各总体的概率密度分别为 设有K个不同的事件,有m个变量与事件发生有关。 Bayes判别的几何意义是在m维空间中对应各总体寻找一个划分: 若样本 落在 Bayes判别准则,即在选择划分 时,应使发生 错判的概率为最小。 错判率与什么有关? 下图简单地以2维空间的两个总体为例 x1 A B x2 DA DB A O 设A、B两总体,有一个划分DA、DB,对任意样本 来自A而错判为B的条件概率 2)来自B而错判为A的条件概率 总的错判率 定理:当先验概率 给定后, 为: ,总体分布 Bayes判别的解 即对任一X,分别计算 ,找出最小值 ,并作出判断 。 * * 若需要判别的对象有两种可能的结局,则称为二级判别;有两种以上可能结局,则称为多级判别。二级判别又称简单判别。 设x为与天气状况有关的变量,而天气状况分为A与B两种状况(晴,阴雨),x的样本空间 由有利A的样本集合与有利B的样本集合组成。 越大时,判别效果越好,错判率越低。 作为判别指标, 而 取决于下列因素 1、指标x在两总体的期望值差异 越大,则 越大,以大概率判别时,错判概率小 2、x的离散程度越小,x来自两不同总体的概率差 越大。 单个气象要素指标效果往往不佳,可采用多个 的要素线性组合成一个综合指标: 称为Fisher判别函数, 称为判别系数。 利用历史资料,根据Fisher准则,推断判别系数。 以 为例,说明其几何意义 A、B两总体均存在较大重叠部分,若将样本投影到直线l上,则两总体重叠部分显著减少。 y x1 二、线性Fisher判别方程的建立 设有A出现条件下,X1…xm的N1次观测值, B出现条件下, X1…xm的N2次观测值 构造判别方程 按照Fisher准则,应有: 将 代入 B与标号k无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响Ck之间的相对比例,因而不影响判别效果,故可令B=1。此时方程

文档评论(0)

1亿VIP精品文档

相关文档