- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture7 判别分析
北京交通大学 李卫东 一、什么是判别分析? 设有k个总体G1,G2,…,Gk,希望建立一个准则,对给定的任意一个样本x,依据这个准则就能判断它是来至哪个总体。应当要求这种准则在某种意义下是最优的,如:错判概率最小或错判损失最小等等。 判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。 它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。 判别分析举例: 根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。 在税务稽查中,要判断某企业是否偷漏税。 医生对病情的诊断。 信用风险的判定。 成功概率的判定。 企业运行状态或财务状况的判定。 二、判别分析的种类 1、按判别的组数分有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型分有 线性判别和非线性判别 3、按判别准则的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。 第二节 距离判别 (一)马氏距离 距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。 设 是从期望μ= 和方差阵Σ= 的总体G抽得的两个观测值,则称 马氏距离和欧式距离之间的差别 马氏距离有如下的特点: 3、若变量之间是相互无关的,则协方差矩阵为对角矩阵 例 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类? proc iml; sigma={68.39 40.24 21.41, 40.24 54.58 11.67, 21.41 11.67 7.90}; mu1={13.5, 40.7, 10.7}; mu2={5.4, 29.8, 6.2}; mu=(mu1+mu2)/2; arfa=inv(sigma)*(mu1-mu2); c=t(arfa)*mu; print arfa c; 加权错判率: 设qi是第i类的先验概率, pi是第i类的错判概率,则加权错判率为 第三节 费希尔判别法 一、不等协差阵的两总体Fisher判别法 (1)基本思想:从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式: ,其中系数、c1、 c2、 c3…. cp确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。 (2)判别函数的导出 假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下: 假设新建立的判别式为 ,今将属于不同两总体的样品观测值代入判别式中去,则得: 对上边两式分别左右相加,再乘以相应的样品个数,则有: 第一组样品的“重心” 第二组样品的“重心”
文档评论(0)