第11章_2 判别分析.pptVIP

下载本文档

29
0
约2.56千字
约 35页
2018-02-23 发布于河南
举报
版权申诉

第11章_2 判别分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第11章_2 判别分析

判别分析引言距离判别 Fisher判别 Bayes判别引言在我们的日常生活和工作实践中，常常会遇到判别分析问题，即根据历史上划分类别的有关资料和某种最优准则，确定一种判别方法，判定一个新的样本归属哪一类。例如，某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料，记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法，使得对于一个新的病人，当测得这些症状指标数据时，能够判定其患有哪种病。判别分析的适用场合把这类问题用数学语言来表达，可以叙述如下：设有n个样品，对每个样品测得p项指标的数据，已知每个样品属于k个类别（或总体）G1，G2， …，Gk中的某一类。我们希望利用这些数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。对测得同样p项指标（变量）数据的一个新样品，能判定这个样本归属于哪一类。判别分析方法的分类两个总体判别分析和多总体判别分析常用的几种判别分析方法：距离判别法、Fisher判别法、Bayes判别法和逐步判别法。距离判别的思想两个总体的距离判别问题：设两个总体G1和G2，对于一个新的样品X，要判断它来自哪个总体。方法：按就近原则归类。求新样品X到G1的距离与到G2的距离之差，如果其值为正，X属于G2；否则X属于G1。根据上述准则可以推导出一个判别函数W，把待判样品的值代入判别函数，根据计算结果是否大于0得出判别结论。 Fisher判别借助方差分析的思想构造一个线性判别函数：确定判别函数系数时要求使得总体之间区别最大，而使每个总体内部的离差最小。从几何的角度看，判别函数就是p维向量X在某种方向上的投影。使得变换后的数据同类别的点“尽可能聚在一起”，不同类别的点“尽可能分离”，以此达到分类的目的。两类Fisher判别示意图 Fisher判别的原理如果有多个类别， Fisher判别可能需要两个或者更多的判别函数才能完成分类。一般来说判别函数的个数等于分类的个数减一。得到判别函数后，计算待判样品的判别函数值，根据判别函数的值计算待判样品到各类的重心的距离，从而完成分类。 Bayes判别的基本思想设有K个总体，样品来自各个总体的先验概率为pi，各总体的密度函数为fi（x），在观测到一个样品X的条件下，可以根据贝叶斯公式计算出它来自某个总体的后验概率。待判样品属于哪一类的后验概率最大，就把它分入哪一类。一般假设服从多元正态分布、各总体的协方差矩阵相等。后验概率的一个例子随机调查1000人，700有自有住房，其中20%为外地人；300人租房住，其中70%为外地人。调查1人为外地人，应归入自有住房还是租房的类别？先验概率：属于自有住房的概率为70%，应分为这一类。根据贝叶斯公式，是租房户的后验概率为(0.3*0.7)/（0.7*0.2+0.3*0.7)=0.6。因此应分入租房户这一类。逐步判别让统计软件根据一定的规则自动筛选那些对分类有重要作用的变量进行判别分析。类似逐步回归中变量的筛选过程。判别结果的评价一般根据对原始数据、验证样本的正确分类的比率来评价分类效果的好坏。原样本(训练样本),组内考核,组内回代验证样本(test data set)，组外考核交叉验证(cross validate)，弃一法，刀切法(jackknife)：每次使用n-1个样品对另一个样品进行分类，计算整体上分类正确的比例。判别分析的正确应用理论上，类间分得越开，判别效果越好，类间距离越近，判别效果就越差。不同的判别方法间是个参照，大多情况下，效果近似。关键是指标是否具有判别价值。 SPSS判别分析的实现和结果分析例1 对国家类别的判别例2 对鸢尾花数据的判别分析例1 14个国家的出生时预期寿命和成人识字率 SPSS操作分析?分类?判别基本设定：相关选项相关选项结果分析：方差分析识字率在各组中差别很不显著，对分类的作用可能不大。 Fisher判别函数 D=-16.661+0.342×预期寿命-0.09×识字率两类的重心根据待判样品的数据计算Fisher判别函数的值，离哪个组的重心近就归入哪一类。分类函数实际是Bayes判别分析的结果。把待判样品的数据带入分类函数，哪个组的值最大就分入那个组。有几个组就有几个分类函数。分类效果的评价待判样品的分类结果例2 鸢尾花的数据我们使用前100个样品为训练样本，后50为测试样本。变量：花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4，单位为mm。构造变量TRAIN_TEST，前100取值为1，后50取值为0，以区分训练和测试样本。软件操作结果分析方差分析判别函数和各组重心分类函数分类结果对