第11讲判别分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析 第一节 判别分析的基本内容 一、什么是判别分析? 设有k个总体G1,G2,…,Gk,希望建立一个准则,对给定的任意一个样本x,依据这个准则就能判断它是来至哪个总体。应当要求这种准则在某种意义下是最优的,如:错判概率最小或错判损失最小等等。 判别分析举例: 例一:根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。 例二:根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。 例三:根据患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。 在实际应用中,当假定正态总体且协差阵相等时,均值与协方差阵要用估计值,即 其中:?1,?2,∑1,∑2分别为总体G1和G2的均值和协差阵。 其线性模型为: 其中, 14个国家的出生时预期寿命和成人识字率 马氏(Mahalanobis)距离 距离判别 各样品到第一类和第二类的距离 原分类与判别归类 判别函数 原分类与判别归类 原分类与判别分类 三、多总体判别 计算样本x到每个总体的距离d2(x∈Gi)i=1,2,…,k,然后比较这些距离,如x距离总体Gi的距离最短,则判x属于总体Gi 。 某种植物三个品种的萼片长、宽和花斑长、宽测量值 合并协方差矩阵 齐性检验及类的可分性 三类的协方差矩阵的齐性检验 ?2=140.943050,? = 20, P<0.0001 三类间的马氏距离及均向量的假设检验 判别函数 判别分类 (二)、后验概率(条件概率) 第三节 费歇尔判别法 费歇尔判别方法是历史上最早提出的判别方法之一,也叫线性判别法 费歇尔判别的思想是通过将多维数据投影到某个方向上,投影的原则是将类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行分类判别。 Fisher判别 基本思想 投影 即把K类的P维数据投影(变换)到某一个方向,使得变换后的数据,同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。 两类Fisher判别示意图 投影(变换) 假设预测因子有P个指标:xi(i=1,2,…,p),有n组观察值(其中第一组有s组观察值,第二组有t组观察值,s+t=n),根据这些数据可在最优的判别准则下确定判别函数y0=c1x1+c2x2+…+cpxp和判距 判别: SAS的Discriminant过程 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值代入到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判内分类,给出错分概率。 Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax夜中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。 定义维尔克斯(Wilks)统计量 对于给定的检验水平 其否定域为 Fisher判别案例 对于给定的检验水平 五、误判概率 五、误判概率 证法2设有G1和G2两个正态总体,x是一个P维样本 五、误判概率 五、误判概率 五、误判概率 五、误判概率例 五、误判概率例 六、判别准则的评价 2 5 G2 1 6 G1 g2 g1 判别为 真实组 六、判别准则的评价 49 1 0 G2 2 48 0 G2 0 0 50 G1 g3 g2 g1 判别为 真实组 六、判别准则的评价 六、判别准则的评价 49 1 0 G2 2 48 0 G2 0 0 50 G1 g3 g2 g1 判别为 真实组 六、判别准则的评价 第三节 费歇尔(Fisher)判别 一、费歇尔的两总体最优判别准则 要使两组判别分明,两组判别函数值差异要大,每组内的判别函数值差异要小。即 六、判别准则的评价 一、判别原理 设有q个总体G1,G2,…,Gq,每类中含有样本数分别为n1,n2,…,nq 假定所建立的判别函数为 其中 表示p维空间的一个方向,如果按这个方向做一条直线, 表示向量x在这条直线上投影坐标 本案例的线性模型的表达式 将各组样本均值投影到某条直线上,得到各组样本均值在该直线的投影坐标,投影坐标值距离越远越容易判断

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档