第五章判別分析.pptVIP

下载本文档

56
0
约1.51万字
约 94页
2017-04-09 发布于上海
举报
版权申诉

第五章判別分析.ppt

1、本文档共94页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五章判別分析

第五章判别分析 §5.1 引言 §5.2 距离判别 §5.3 贝叶斯判别 §5.4 费希尔判别 §5.5 逐步判别 1 判别分析的目标目标1（预测方面）：分类（或分配）。在已知历史上用某些方法已把研究对象分成若干组（亦称类或总体）的情况下，来判定新的观测样品应归属的组别。目标2（描述方面）：分离。就是用图形（通常二维，有时三维或一维，一般通过降维实现）方法或代数方法描述来自各组的样品之间的差异性，最大限度地分离各组。 2 §5.1 引言判别分类的例子： 1.有偿付力与无偿付力的财产责任保险公司。测量变量：总资产，股票与债券价值，股票与债券的市值，损失支出，盈余，签定的保费金额。 2.非溃疡胃病组（胃功能紊乱者）与控制组（“正常”者）。测量变量：焦虑、依赖性、罪恶感、完美主义的量度 3 3.两种野草。测量变量：萼片与花瓣的长度，花瓣裂缝的深度，苞的长度，花粉直径。 4.新产品的速购者与迟购者。测量变量：教育，收入，家庭大小，过去更换品牌的次数。 5.良好信用与不良信用风险。测量变量：收入，年龄，信用卡数目，家庭规模。每一组中所有样品的p维指标值构成了该组的一个p元总体分布，我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。 4 §5.2 距离判别一、两组距离判别二、多组距离判别 5 一、两组距离判别设组π1和π2的均值分别为μ1和μ2，协差阵分别为Σ1和Σ2(Σ1,Σ20) ，x是一个新样品（p维），现欲判断它来自哪一组。 1. Σ1=Σ2=Σ时的判别 2. Σ1≠Σ2时的判别 6 1. Σ1=Σ2=Σ时的判别判别规则： 7 其中。令，则上述判别规则可简化为称W(x)为两组距离判别的（线性）判别函数，称a为判别系数向量。 8 (5.2.3) 误判概率误判概率设π1~Np(μ1, Σ), π2~Np(μ2, Σ)，则其中是两组之间的马氏距离。可见，两个正态组越是分开（即Δ越大），两个误判概率就越小，此时的判别效果也就越佳。当两个正态组很接近时，两个误判概率都将很大，这时作判别分析就没有什么实际意义了。 9 组之间是否已过于接近的界定我们可对假设H0：μ1 =μ2，H1：μ1≠μ2进行检验，若检验接受原假设H0 ，则说明两组均值之间无显著差异，此时作判别分析一般会是徒劳的；若检验拒绝 H0 ，则两组均值之间虽然存在显著差异，但这种差异对进行有效的判别分析未必足够大（即此时作判别分析未必有实际意义），故此时还应看误判概率是否超过了一个合理的水平。 10 例5.2.1 设p=1，π1和π2的分布分别为N(μ1,σ2)和N(μ2,σ2)，μ1,μ2,σ2均已知，μ1＜μ2，则判别系数a=(μ1?μ2)/ σ2＜0，判别函数：判别规则：误判概率：误判概率图示： 11 抽取样本估计有关未知参数设是来自组π1的样本，是来自组π2的样本，n1+n2?2≥p，则μ1和μ2的一个无偏估计分别为 Σ的一个联合无偏估计为其中 12 实际使用的判别函数为这里。其判别规则为若π1和π2都为正态组，则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的，但大样本时偏差的影响是可以忽略的。 13 (5.2.5) 误判概率的非参数估计若两组不能假定为正态组，则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计，通常有如下三种非参数估计方法： (1)令n(2|1)为样本中来自π1而误判为π2的个数，n(1|2)为样本中来自π2而误判为π1的个数，则P(2|1) 和P(1|2) 可估计为该方法简单、直观，且易于计算。但遗憾的是，它给出的估计值通常偏低，除非n1和n2都非常大。 14 出现这种乐观估计的原因是，被用来构造判别函数的样本数据又被用于对这个函数进行评估，该判别函数自然对构造它的样本数据有更好的适用性，以致出现偏低的误判率。 15 (2)将整个样本一分为二，一部分作为训练样本，用于构造判别函数，另一部分用作验证样本，用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计，如此得到的估计是无偏的。该方法的两个主要缺陷： (i)需要用大样本； (ii)该方法构造的判别函数只用了部分样本数据，与使用全部样本数据构造的判别函数（这是作判别时实际使用的）相比，损失了过多有价

您可能关注的文档

文档评论（0）

1234554321 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第五章判別分析.pptVIP