第5章__判别分析.ppt

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章__判别分析

5.1 判别分析的概念 5.2 距离判别法 5.3 费歇尔判别法 5.4 贝叶斯判别法 5.5 逐步判别法 5.6 实例分析 5.1 判别分析的概念 在生产、科研和日常生活中,我们经常需要根据观测到的数据资料,对所研究的对象进行判别分类,即是根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样品归属于哪一类。例如某医院有部分患有肺炎、肝炎、冠心病、高血压、糖尿病等病人的资料,记录了每个患者若干症状的指标数据,现在想利用现有的这些资料数据找出一种方法,使对于一个新的病人,当测得这些症状指标数据时,能够判断其患有哪一种疾病。在经济学中,根据人均国民收入、人均工农业总产值、人均消费水平等多项指标来判断一个国家所处的经济发展阶段。在气象预报中,根据已有的气象资料(气温、气压、湿度等)来判断明天、后天是阴天还是晴天,是有雨还是无雨。在地质学中根据以往对矿物勘探资料(矿石的化学和物理性质和所含化学成分)的分析,判断某一矿石把他应归于哪一类矿石。总之,在实际问题中需要判别的问题几乎无处不在。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分析与聚类分析往往要结合起来使用。 用数学的语言来说,判别问题可以表述为:对于n个样品,每个样品有p个指标,已知每个样品属于某一k类别(总体)G1,G2,…,Gk,对于每类别其分布函数分别为f1(y),f2(y),…,fk(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。 研究判别分析的方法很多,根据不同的研究对象,判别分析方法有不同的分类: 1)按判别的组数来分,有两组判别分析和多组判别分析 2)按区分不同总体所用的数学模型来分,有线性判别分析和非线性判别分析 3)按判别对所处理的变量方法不同有逐步判别分析、序贯判别分析。 4)按判别准则来分,有马氏距离最小准则、费歇尔判别准则、贝叶斯判别准则、最小平方准则、最大似然准则等。 聚类分析数据格式 判别分析数据格式 第三节 费歇尔判别法 1、费歇尔判别原理 费歇尔(Fisher)判别方法是(1936)历史上最早提出的判别方法之一,也叫线性判别法。它的基本思想是通过将多维数据投影到某一方向上,使得投影后类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行分类判别。而衡量类与类之间是否分开的方法是借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。 费歇尔判别方法就是将各组样本均值投影到某条直线上,得到各组样本均值在该直线的投影坐标,投影坐标值距离越远越容易判断待判样本属于哪个组。因此,费歇尔判别方法就是要找一个由p个变量组成的线性函数,使得各类内点的函数值尽可能接近,而不同类间的函数值尽可能的远离。 图5.2表示的是2维空间中的点投影到某个一维空间,即一条直线上,然后再对其进行判别,投影到不同的直线上,判别效果一般是不同的。 投影坐标值距离越远越容易判断待判样本属于哪个组。 2、费歇尔判别方法 设有k个总体G1,G2,…,Gk,每个总体中含有ni个样品,每个样品观测p个指标,假定所建立的判别函数为. 其中 c表示p维空间的一个方向,如果按这个方向做一条直线, 表示向量x在这条直线上投影坐标 三、判别的步骤 1、由各组样本资料,计算各组样本均值 2、计算离差矩阵A 3、计算各组样本离差平方和E 4、计算矩阵E-1 A的前m个特征向量 5、构造判别函数Yl(x)。 6、判断 值得注意的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大一些。 从距离判别法来看,它存在以下不足: (1)判别方法与总体各自出现的概率的大小无关; (2)判别方法与错判之后所造成的损失无关。 从费歇尔判别法来看,它随着总体个数的增加,建立的判别函数式个数也增加,因而计算起来比较麻烦。 如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率P(l/x),比较这k个概率的大小,然后将

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档