第11章_2 判别分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第11章_2 判别分析

判别分析 引言 距离判别 Fisher判别 Bayes判别 引言 在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。 例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。 判别分析的适用场合 把这类问题用数学语言来表达,可以叙述如下:设有n个样品,对每个样品测得p项指标的数据,已知每个样品属于k个类别(或总体)G1,G2, …,Gk中的某一类。 我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。 对测得同样p项指标(变量)数据的一个新样品,能判定这个样本归属于哪一类。 判别分析方法的分类 两个总体判别分析和多总体判别分析 常用的几种判别分析方法:距离判别法、Fisher判别法、Bayes判别法和逐步判别法。 距离判别的思想 两个总体的距离判别问题:设两个总体G1和G2,对于一个新的样品X,要判断它来自哪个总体。 方法:按就近原则归类。求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。 根据上述准则可以推导出一个判别函数W,把待判样品的值代入判别函数,根据计算结果是否大于0得出判别结论。 Fisher判别 借助方差分析的思想构造一个线性判别函数: 确定判别函数系数时要求使得总体之间区别最大,而使每个总体内部的离差最小。 从几何的角度看,判别函数就是p维向量X在某种方向上的投影。使得变换后的数据同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。 两类Fisher判别示意图 Fisher判别的原理 如果有多个类别, Fisher判别可能需要两个或者更多的判别函数才能完成分类。 一般来说判别函数的个数等于分类的个数减一。 得到判别函数后,计算待判样品的判别函数值,根据判别函数的值计算待判样品到各类的重心的距离,从而完成分类。 Bayes判别的基本思想 设有K个总体,样品来自各个总体的先验概率为pi,各总体的密度函数为fi(x),在观测到一个样品X的条件下,可以根据贝叶斯公式计算出它来自某个总体的后验概率。 待判样品属于哪一类的后验概率最大,就把它分入哪一类。 一般假设服从多元正态分布、各总体的协方差矩阵相等。 后验概率的一个例子 随机调查1000人,700有自有住房,其中20%为外地人;300人租房住,其中70%为外地人。 调查1人为外地人,应归入自有住房还是租房的类别? 先验概率:属于自有住房的概率为70%,应分为这一类。 根据贝叶斯公式,是租房户的后验概率为(0.3*0.7)/(0.7*0.2+0.3*0.7)=0.6。因此应分入租房户这一类。 逐步判别 让统计软件根据一定的规则自动筛选那些对分类有重要作用的变量进行判别分析。 类似逐步回归中变量的筛选过程。 判别结果的评价 一般根据对原始数据、验证样本的正确分类的比率来评价分类效果的好坏。 原样本(训练样本),组内考核,组内回代 验证样本(test data set),组外考核 交叉验证(cross validate),弃一法,刀切法(jackknife):每次使用n-1个样品对另一个样品进行分类,计算整体上分类正确的比例。 判别分析的正确应用 理论上,类间分得越开,判别效果越好,类间距离越近,判别效果就越差。 不同的判别方法间是个参照,大多情况下,效果近似。 关键是指标是否具有判别价值。 SPSS判别分析的实现和结果分析 例1 对国家类别的判别 例2 对鸢尾花数据的判别分析 例1 14个国家的出生时预期寿命和成人识字率 SPSS操作 分析?分类?判别 基本设定: 相关选项 相关选项 结果分析:方差分析 识字率在各组中差别很不显著,对分类的作用可能不大。 Fisher判别函数 D=-16.661+0.342×预期寿命-0.09×识字率 两类的重心 根据待判样品的数据计算Fisher判别函数的值,离哪个组的重心近就归入哪一类。 分类函数 实际是Bayes判别分析的结果。 把待判样品的数据带入分类函数,哪个组的值最大就分入那个组。有几个组就有几个分类函数。 分类效果的评价 待判样品的分类结果 例2 鸢尾花的数据 我们使用前100个样品为训练样本,后50为测试样本。 变量:花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4,单位为mm。 构造变量TRAIN_TEST,前100取值为1,后50取值为0,以区分训练和测试样本。 软件操作 结果分析 方差分析 判别函数和各组重心 分类函数 分类结果 对

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档