第五讲判别分析概要.ppt

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五讲判别分析概要

马氏距离的概念 距离判别的思想及方法 1、两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是?1和?2,对于一个新的样品X,要判断它来自哪个总体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行判断 这个判别规则的等价描述为:求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。 我们考虑 这里我们应该注意到: 2、多个总体的距离判别问题 判别分析的实质 我们知道,判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质,以便能灵活的应用判别分析方法解决实际问题,我们有必要了解“划分”这样概念。 设R1,R2,…,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们的和集为Rp,则称R1,R2,…,Rk为Rp的一个划分。 这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对p维空间R p构造一个“划分”,这个“划分”就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。 第五讲结束了! * 对比两总体均值是否相等的检验统计量 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E(X) = μ 与?E(Y) = ν 的两个实数随机变量X与Y之间的协方差定义为: COV(X,Y)=E[(X-E(X))(Y-E(Y))]=EXY-EX*EY 其中,E是期望值。它也可以表示为: 直观上来看,协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足EXY=EXEY。 但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。 柯西 是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现 先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料; 从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。 事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。 作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。 贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。 Bayes 统计思想 假定对研究对象已有一定的认识,而这种认识常常用先验概率分布描述; 然后取得一个样本,用样本提供的信息再修正已有的认识,从而可以得到后验概率分布; 各种统计推断都通过后验概率分布进行。 Bayes判别 最大后验准则 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人? Bayes判别的基本思想是认为所有G个类别都是空间中互斥的子域,每个观测都是空间中的一个点。在考虑先验概率的前提下,利用Bayes公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该样品所属的类别。 Bayes判别准则: 使错判造成的损失为最小 Bayes判别 错判损失如何定义? 设有G个总体:ξ1,ξ2,…,ξg,…,ξG 其中ξg 的 p 维分布密度函数 ξg ~ fg (x1, x2,…, xp)≡ fg (x) g =1, 2,…,G 设D1, D2,…, DG是p维空间R p的一

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档