- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第五讲
判别分析
DiscriminantAnalysis;在我们的日常生活和工作实践中,常会遇到一些需要根据历史上划分类别的有关资料和某种最优准则,来判定一个新的样本归属哪一类的问题。
; 根据经验,今天与昨天的湿度差x1及今天的压温差(气压与温度之差)x2是预报明天下雨或不下雨的两个重要因素。
今测得x1=8.1,x2=2.0,试问应预报明天下雨还是预报明天不下雨?;这是一个最简单的判别分析问题
由判别因子x1和x2:
将二维样本空间划分成两个互不相交的区域D1和D2,根据新样品判别因子的观察值,若它落在区域Di,就判该样品属于i类
构造一个判别函数u(x1,x2),然后根据新样品的函数值判断其属于哪一类;中小企业的破产模型
为了研究中小企业的破产模型,选定4个经济指标:
X1总负债率(现金收益/总负债)
X2收益性指标(纯收入/总财产)
X3短期支付能力(流动资产/流动负债)
X4生产效率性指标(流动资产/纯销售额)
对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得关于上述四个指标的资料
现有8个未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正常运行企业一类?;判别分析与聚类分析的联系与区别;把这类问题用数学语言来表达,可以叙述如下:
设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2,…,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x),…,Fk(x)。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。;数学模型(概率论的角度);实际处理方法;一般判别分析的模型;判别分析是一种进行统计判别和分组的技术手段。
判别分析与聚类分析的不同之处在于判别分析带有“预测”意义。
判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数,以后再有未知类别的数据进入,就利用建立的函数来判断其类别(判别规则)。
各类判别问题的前提有所不同,进行划分或寻找判别函数的准则也可以不同,判别分析的方法有:距离判别,费歇判别,贝叶斯判别等。;常用的判别方法;距离判别;马氏距离的概念;;距离判别的思想及方法;我们考虑;这里我们应该注意到:;注意要点(1);注意要点(2);2、多个总体的距离判别问题
;距离判别的特点;判别分析的实质;这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对p维空间Rp构造一个“划分”,这个“划分”就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。;Fisher判别;Fisher判别的图示;设有G个总体:ξ1,ξ2,…,ξG;Fisher判别准则:;即要找u(x),使;判别规则:
对新样品x,若
|u(x)-ui|=min|u(x)-ug|
则判x∈ξi
u(x)可以是x的任意函数,通常只考虑线性判别函数:
u(x)=a/x=a1x1+a2x2+…+apxp
重点转为线性判别函数的系数a的确定
u(x)的线性函数
亦为Fisher准则下的判别函数;线性判别函数的系数a确定;在a′Wa=1的条件下,求a,使I达到最大
根据线性代数知识,
a为|B-λW|=0的最大特征根所对应的特征向量,λ为最大特征根。;两类Fisher判别;分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。
;综上,也就是要求
越大越好;利用微积分求极值的必要条件可求出使I达到最大值的a1,a2,…,ap.
当然,也可以限定在F=1的条件下,求出使I达到最大值的a1,a2,…,ap;定义临界值:
不妨假设
如果由原始数据求得判别函数得分为u0,对与一个样品代入判别函数中,若u0u*,则判给第一类,否则判给第二类。;两类Fisher判别分析步骤;判别效果的检验;检验统计量;多个总体的Fisher判别法;设有k个总体ξ1,ξ2,…,ξk,分别有均值向量μ1,μ2,…,μk,和协方差阵σ1,σ2…,σk,分别各总体中得到样品:;如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数,设需要m(mk)个。
假设a’Wa=1的条件下,|B-λW|=0的各特征根依次为:
原创力文档


文档评论(0)