判别分析讲义.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析 例 中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料: 判别分析(discriminant analysis) 这就是本章要讲的是判别分析。 判别分析和前面的聚类分析有什么不同呢? 主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。 而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。 1.距离判别 2. Fisher判别 (属于确定性判别) 3. Bayes判别 (属于概率性判别) (1)当 ?1 = ?2 = ? 时 例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类? (先进行投影的距离判别 ) 从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。该判别方法对总体的分布不做任何要求。 所谓Fisher判别法,就是一种先投影后用距离判别的方法。该法对总体的分布并未提出什么特定的要求。 Q:为什么要投影? 设欲建立的线性判别函数(linear discriminatory function)为: Y = b1X1+ b2 X 2+…+ bpXp 使得该判别函数能根据指标X1、X2、…、Xp之值区分各样品应归属哪一类。式中bi(i=1,2, …,p)称为判别系数。在判别函数式建立后,还需求得临界值,作为判断的标准。 案例 根据经验,今天和昨天的湿温差x1及气温差x2是预报明天下雨或不下雨的两个重要因子,试就下面的数据建立Fisher线性判别函数进行判别。设今天测得x1=8.1, x2=2.0,试问应该预报明天下雨还是不下雨? 表 雨天和非雨天的湿温差x1和气温差x2 得判别函数: y = 0.009502 x1-0.02063 x2 §3 贝叶斯判别法 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。 距离判别简单直观,很实用,但是距离判别的方法把 总体等同看待,没有考虑到总体会以不同的概率(先验 概率)出现,也没有考虑误判之后所造成的损失的差异。 一个好的判别方法,既要考虑到各个总体出现的先验概 率,又要考虑到错判造成的损失,Bayes判别就具有这 些优点,其判别效果更加理想,应用也更广泛。 在进行Bayes判别时,假定各类协方差阵相同,此时判别函数为线性。(正态总体) (1)先验概率相等:取q1 = q2 = q3 = 1/3, 下表(1)为先验概率相等时的Bayes判别函数的系数,此时的判别函数等价于Fisher线性判别函数。(相差一个常数) (2)先验概率不等:取q1 = 5/20,q2 =8/20, q3 = 7/20, Bayes判别函数。 §4逐步判别法 基本思路: 采用“有进有出”的方法。即在判别过程中,没有一个变量进入判别分析中,先对各变量进行计算、检验,从中挑选最主要的变量进入判别中。 然后再考虑较早引入判别式的某些变量,如果由于新变量的引入而原变量变为不重要了,则剔除判别式中,直到所有的重要变量都引入判别式中,所有的非重要变量都剔除判别式中为止。 如何判别那个变量重要呢? 已知变量之间在各组中的差异越大越好,即为重要变量。 变量在各组间的

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档