第五章 判別分析.pptVIP

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 判別分析

第五章 判别分析 §5.1 引言 §5.2 距离判别 §5.3 贝叶斯判别 §5.4 费希尔判别 §5.5 逐步判别 1 判别分析的目标 目标1(预测方面):分类(或分配)。 在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。 目标2(描述方面):分离。 就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。 2 §5.1 引言 判别分类的例子: 1.有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。 2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。 测量变量:焦虑、依赖性、罪恶感、完美主义的量度 3 3.两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。 4.新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌的次数。 5.良好信用与不良信用风险。 测量变量:收入,年龄,信用卡数目,家庭规模。 每一组中所有样品的p维指标值 构成了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。 4 §5.2 距离判别 一、两组距离判别 二、多组距离判别 5 一、两组距离判别 设组π1和π2的均值分别为μ1和μ2,协差阵分别为Σ1和Σ2(Σ1,Σ20) ,x是一个新样品(p维),现欲判断它来自哪一组。 1. Σ1=Σ2=Σ时的判别 2. Σ1≠Σ2时的判别 6 1. Σ1=Σ2=Σ时的判别 判别规则: 7 其中 。 令 ,则上述判别规则可简化为 称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。 8 (5.2.3) 误判概率 误判概率 设π1~Np(μ1, Σ), π2~Np(μ2, Σ),则 其中 是两组之间的马氏距离。 可见,两个正态组越是分开(即Δ越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。 9 组之间是否已过于接近的界定 我们可对假设H0:μ1 =μ2,H1:μ1≠μ2进行检验,若检验接受原假设H0 ,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的;若检验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),故此时还应看误判概率是否超过了一个合理的水平。 10 例5.2.1 设p=1,π1和π2的分布分别为N(μ1,σ2)和N(μ2,σ2),μ1,μ2,σ2均已知,μ1<μ2,则判别系数a=(μ1?μ2)/ σ2<0, 判别函数: 判别规则: 误判概率: 误判概率图示: 11 抽取样本估计有关未知参数 设 是来自组π1的样本, 是来自组π2的样本,n1+n2?2≥p,则μ1和μ2的一个无偏估计分别为 Σ的一个联合无偏估计为 其中 12 实际使用的判别函数为 这里 。其判别规则为 若π1和π2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为 其中 。 该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。 13 (5.2.5) 误判概率的非参数估计 若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法: (1)令n(2|1)为样本中来自π1而误判为π2的个数,n(1|2)为样本中来自π2而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为 该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。 14 出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,该判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。 15 (2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。 该方法的两个主要缺陷: (i)需要用大样本; (ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数(这是作判别时实际使用的)相比,损失了过多有价

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档