误差分析数据判别分析.ppt

下载文档 降价啦

14
0
约4.62千字
约 52页
2017-11-23 发布于上海
举报
版权申诉
保障服务

误差分析数据判别分析.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

误差分析数据判别分析

数据判别分析第一部分：原理介绍判别分析概念及应用概念应用判别分析概念在自然科学与社会科学等众多领域中,研究对象往往用某种方式已划分为若干类型,当得到一个新的样品,要确定该样品属于已知类型的哪一类,这类问题就属于判别分析. 判别分析的应用在工业生产中判断产品的等级; 在经济发展中判断一个国家经济发展程度; 医学中根据化验结果判断病人的疾病类型等. 相似性测度判断样品之间的相似性常采用近邻准则，就是把待分类样品与标准模版进行比较，看和哪个模版匹配程度更好，从而确定待测样品的分类。计算模式相似性测度有欧式距离、马氏距离、夹角余弦距离、Tanimoto测度等多种距离算法。近邻准测分类的两种计算方法 1 通过与样品库所有样品特征分别作相似性测度，找出最接近的样品，取该样品所属类别作为待测样品的类别。 2 待测样品与样品库中不同类别的中心或重心作相似性测度，找出最接近类的中心，以该类作为待测样品的类别。距离算法样品与样品之间的距离样品与类之间的距离类内距离类与类之间的距离样品间距离示意图同类内样品间的距离不同类内样品间的距离样品与样品之间的距离 A: B: 样品间的距离计算公式样品与类之间的距离 W为代表某类样品的集合，其中有n个样品，x为待测样品。样品与类的距离的计算方法 1 计算待测样品和类中每个样品之间的距离后求平均值。 2 计算类的中心点，以类中所有的样品特征的平均值作为类的中心，然后计算待测样品到中心点的距离。类内距离同一个类内任意样品之间距离之和的平均值类与类之间的距离最短距离法、最长距离法、重心法、平均距离法数据判别的方法——模版匹配把未知样品和一个标准模版相比，看它们是否相同或者相似。两类别多类别两类别有两个标准样品模版为A和B，其特征向量分别为X和Y，任何一个待识别的样品为M,可以用距离判别来判断它属于A或者B,如果M和A的距离近则属于A，否则属于B。这就是最小距离判别法。多类别多种类别，每类有N个样品，计算待测样品到各类中心的马氏距离，比较各距离，取最小的距离值，则待测样品就属于该类。马氏距离在判别分析中最常用到马氏距离，此方法考虑到了欧式分布中没有考虑到的总体分布的分散性信息。设x，y是来自均值向量为、协方差矩阵的总体G的两个样品，则x，y之间的马氏距离是而两个总体G1和G2,其均值向量分别为和，G1和G2的协方差距阵相等，皆为，则总体G1和G2间的马氏距离是马氏距离的性质 1 2 3 马氏距离判别的合理性设G1为正态总体它们的概率密度为： G2为正态总体马氏距离判别的合理性两个总体的协方差矩阵相等，对于新产品X，要判别X属于哪个总体，根据统计学似然比准则，很自然应将X判归在该样品观测处其概率密度较大的那个总体。即有下列判别准则：马氏距离判别的合理性而的充分必要条件是：即，（马氏距离）因此，当两个总体G1和G2为正态总体且其协方差矩阵相等时，采用马氏距离判别准则和似然比准则时一致的。具体讨论两个总体协方差矩阵相等或不等的情况 1当两个总体协方差矩阵相等时，考虑样品X到两总体的马氏平方距离的差：具体讨论两个总体协方差矩阵相等或不等的情况记则具体讨论两个总体协方差矩阵相等或不等的情况这样，距离判别准则化为其中W1和W2都是线性判别函数，在实际问题中，通常以来自总体的训练样本的均值和协方差来估计线性判别函数。具体讨论两个总体协方差矩阵相等或不等的情况 2 当两个总体协方差矩阵不等的时候多个总体的距离判别 N个总体均值向量和协方差矩阵已知，计算待测样品X到各总体的马氏距离，比较这N个距离，判断X属于其马氏距离最小的总体，如果最小距离在不止一个总体达到，则可将X判给具有最小距离总体的任何一个。判别准则的评价 1 误判率回代估计法 2 误判率的交叉确认估计法误判率回代估计法设G1和G2为两个总体，容量分别为n1、n2，以全体训练样本作为n1＋n2个新样品，逐个代入已建立的判别准则中判别其归属。误判率回代估计法其中n12是将属于G1的样品误判为属于G2的个数，n21是将属于G2的样品误判为属于G1的个数，总的误判个数是n12＋n21，而总体n1＋n2，误判率回代估计为误判率的交叉确认估计法误判率的交叉估计确认估计是每次剔除训练样本中的一个样品，利用其余容量为n1+n2-1的训练样本建立相应的判别准则，再用所建立的判别准则对剔除的那个样品作判别。对训练样本中的每个样品作上述分析，以其误判的比例作为误判概率的估计。误判率的交叉确认估