演示专题8:判别分析.doc

演示专题8:判别分析.doc

专题8 判别分析 1 判别分析概述 2 判别方法 3 例题及主要统计结果解释 4 应用举例 1 判别分析概述 1.1 判别分析问题 1.2 判别分析的原始数据 1.3 判别准则 返回 1.1 判别分析问题 判别分析与样品聚类一样,也是对个体(样品)进行分类的一种方法。 样品聚类是要将样本中参与分析的样品划分成若干类,这些类可以事先并不知道;判别分析则是对已知的类别,要用一些变量建立对样品归类的规则,以便根据该规则,判别某些未知类别的样品属于哪一类,另外判别分析也可以给出各个变量在分类中作用的大小。 这些用以建立分类规则的变量称为判别变量。用以建立分类规则的样本,其中的样品的类别必须是事先已知的。 如为了判别男少年适合练仰泳还是练蛙泳,如果身体形态对于不同姿势的成绩有关,可以抽取若干名仰泳和蛙泳的优秀少年男运动员,测试他们的身体形态指标,建立判别规则,以后再有新的少年男游泳运动员时,就可以根据这些指标(判别变量),用该判别规则来判别其适合练仰泳还是练蛙泳。 用于区分两个类别的,称为两类判别。依此类推,可以有三类、四类等的判别,三类及以上的判别常称为多类判别。 返回 1.2 判别分析的原始数据 抽取一个样本,测取样本中每个观察对象的x1、x2、…xp(用于参与分析的变量)的值,注意每个对象各指标的值都要测全,并要已知每个观察对象所属类别。为了取得较好的效果,总样本含量n不能太小,各类样本的含量也不应过于悬殊。 表14.1 判别分析的原始数据 对象 … 类别 1 … 1 2 … 1 … … … … … … n … k 返回 1.3 判别准则 目前最常用的判别准则是贝叶斯(Bayes)准则和费歇(Fisher)准则。 贝叶斯判别准则使得平均误判损失(或误判概率)最小,其导出的判别方法是基于概率的;费歇判别准则是要找出多维空间中的一个方向(向量),使得样本中的各类样品,在这一方向上的投影尽可能地分开,以至区分各类,是非概率型的。 返回 2 判别方法 2.1 两种常用判别方法 2.2 分类判别分析 2.3 典型判别分析 2.4 判别变量的筛选 返回 2.1 两种常用判别方法 判别方法有多种,其中最常用的是分类判别分析和典型判别分析,目前世界上一些著名的统计分析软件也主要使用这两种方法。 这两种方法都能用于两类判别和多类判别,先建立判别函数,然后用判别函数来进行判别。两者各有千秋,互相补充。在实用中许多人习惯于对同一问题同时用两者进行分析。 为了便于使用,人们对线性判别函数特别感兴趣,事实上在实用中用得最多的也是线性判别函数,所以这里仅就间距测度的判别变量,针对线性判别函数的情况进行介绍。 返回 2.2 分类判别分析 2.2.1 分类判别分析的主要用途 2.2.2 我们的前提 2.2.3 先验概率和后验概率 2.2.4 先验概率的取法 2.2.5 误判损失的取法 2.2.6 费歇的线性判别函数 2.2.7 分类判别效果的评价 返回 2.2.1 分类判别分析的主要用途 分类判别分析的主要用途在于建立起判别规则,以便对观察对象进行判别归类。 返回 2.2.2 我们的前提 分类判别分析使用贝叶斯判别准则。 总体服从多元正态分布,且各类的总体协差阵相等时,可得到线性判别函数; 当总体不服从多元正态分布时,需使用非参数统计方法进行估计; 当总体服从多元正态分布,但各类的总体协差阵不等时,虽然可用参数方法,但要使用二次判别式。 因为后两种情况比较复杂,所以我们只针对总体服从多元正态分布且各类的总体协差阵相等的情况进行介绍。 返回 2.2.3 先验概率和后验概率 使用贝叶斯准则进行判别,除了要考虑各总体的分布及协差阵外,还可以考虑将第i类中样品误判为第j类样品时的损失c( j | i )及样品属于第i类的先验概率qi等。 先验概率是指任取一个样品,该样品属于各类的概率,它是事先估计的、不依赖于所取的这个样品的信息。根据所取样品的信息计算的概率称为后验概率。 用贝叶斯准则进行判别分析,可以计算出每个样品属于各类的后验概率,并以此作为分类的依据。 返回 2.2.4 先验概率的取法 在作分类判别分析时,如果对样品属于各类的先验概率有所了解,则可以指定各类的先验概率。 但在大多数情况下,样品属于各类的先验概率是不知道的,这时不妨各类取相同的先验概率,即都取。 当样本中属于各类的样品数量的比例能反映总体中的这一比例时,则可以用样本中各类样品出现的频率作为各类的先验概率。 返回 2.2.5 误判损失的取法 由于实际工作中各类误判损失的差别常常较难估计或很难定量化,所以分类判别分析通常取各类误判损失相同,也就等价于不考虑误判损失,统计软件中通常也这样

文档评论(0)

1亿VIP精品文档

相关文档