误差分析数据判别分析.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
误差分析数据判别分析

数据判别分析 第一部分:原理介绍 判别分析概念及应用 概念 应用 判别分析概念 在自然科学与社会科学等众多领域中,研究对象往往用某种方式已划分为若干类型,当得到一个新的样品,要确定该样品属于已知类型的哪一类,这类问题就属于判别分析. 判别分析的应用 在工业生产中判断产品的等级; 在经济发展中判断一个国家经济发展程度; 医学中根据化验结果判断病人的疾病类型等. 相似性测度 判断样品之间的相似性常采用近邻准则,就是把待分类样品与标准模版进行比较,看和哪个模版匹配程度更好,从而确定待测样品的分类。 计算模式相似性测度有欧式距离、马氏距离、夹角余弦距离、Tanimoto测度等多种距离算法。 近邻准测分类的两种计算方法 1 通过与样品库所有样品特征分别作相似性测度,找出最接近的样品,取该样品所属类别作为待测样品的类别。 2 待测样品与样品库中不同类别的中心或重心作相似性测度,找出最接近类的中心,以该类作为待测样品的类别。 距离算法 样品与样品之间的距离 样品与类之间的距离 类内距离 类与类之间的距离 样品间距离示意图 同类内样品间的距离 不同类内样品间的距离 样品与样品之间的距离 A: B: 样品间的距离计算公式 样品与类之间的距离 W为代表某类样品的集合,其中有n个样品,x为待测样品。 样品与类的距离的计算方法 1 计算待测样品和类中每个样品之间的距离后求平均值。 2 计算类的中心点,以类中所有的样品特征的平均值作为类的中心,然后计算待测样品到中心点的距离。 类内距离 同一个类内任意样品之间距离之和的平均值 类与类之间的距离 最短距离法、最长距离法、重心法、平均距离法 数据判别的方法——模版匹配 把未知样品和一个标准模版相比,看它们是否相同或者相似。 两类别 多类别 两类别 有两个标准样品模版为A和B,其特征向量分别为X和Y,任何一个待识别的样品为M,可以用距离判别来判断它属于A或者B,如果M和A的距离近则属于A,否则属于B。这就是最小距离判别法。 多类别 多种类别,每类有N个样品,计算待测样品到各类中心的马氏距离,比较各距离,取最小的距离值,则待测样品就属于该类。 马氏距离 在判别分析中最常用到马氏距离,此方法考虑到了欧式分布中没有考虑到的总体分布的分散性信息。 设x,y是来自均值向量为 、协方差矩阵 的总体G的两个样品,则x,y之间的马氏距离是 而两个总体G1和G2,其均值向量分别为和 ,G1和G2的协方差距阵相等,皆为 ,则总体G1和G2间的马氏距离是 马氏距离的性质 1 2 3 马氏距离判别的合理性 设G1为正态总体 它们的概率密度为: G2为正态总体 马氏距离判别的合理性 两个总体的协方差矩阵相等,对于新产品X,要判别X属于哪个总体,根据统计学似然比准则,很自然应将X判归在该样品观测处其概率密度较大的那个总体。 即有下列判别准则: 马氏距离判别的合理性 而 的充分必要条件是: 即, (马氏距离)因此,当两个总体G1和G2为正态总体且其协方差矩阵相等时,采用马氏距离判别准则和似然比准则时一致的。 具体讨论两个总体协方差矩阵相等或不等的情况 1当两个总体协方差矩阵相等时,考虑样品X到两总体的马氏平方距离的差: 具体讨论两个总体协方差矩阵相等或不等的情况 记 则 具体讨论两个总体协方差矩阵相等或不等的情况 这样,距离判别准则化为 其中W1和W2都是线性判别函数,在实际问题中,通常以来自总体的训练样本的均值和协方差来估计线性判别函数。 具体讨论两个总体协方差矩阵相等或不等的情况 2 当两个总体协方差矩阵不等的时候 多个总体的距离判别 N个总体均值向量和协方差矩阵已知,计算待测样品X到各总体的马氏距离,比较这N个距离,判断X属于其马氏距离最小的总体,如果最小距离在不止一个总体达到,则可将X判给具有最小距离总体的任何一个。 判别准则的评价 1 误判率回代估计法 2 误判率的交叉确认估计法 误判率回代估计法 设G1和G2为两个总体,容量分别为n1、n2,以全体训练样本作为n1+n2个新样品,逐个代入已建立的判别准则中判别其归属。 误判率回代估计法 其中n12是将属于G1的样品误判为属于G2的个数,n21是将属于G2的样品误判为属于G1的个数,总的误判个数是n12+n21,而总体n1+n2,误判率回代估计为 误判率的交叉确认估计法 误判率的交叉估计确认估计是每次剔除训练样本中的一个样品,利用其余容量为n1+n2-1的训练样本建立相应的判别准则,再用所建立的判别准则对剔除的那个样品作判别。对训练样本中的每个样品作上述分析,以其误判的比例作为误判概率的估计。 误判率的交叉确认估

文档评论(0)

phltaotao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档