网站大量收购独家精品文档,联系QQ:2885784924

第四章判别分析概要.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章判别分析概要

影响分类的因素 先验概率 误判损失cost of misclassification: x被判为属于G2,而它实际属于G1,则称发生了误判 误判可能会带来经济损失 当误判损失不对称时(比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可将G2误判给G1,也不愿相反。 基本思路:误判期望损失最小化 设有m个总体G1, …Gm,其概率密度函数分别为fi(x),i=1,2…m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j|i),那么,对于判别规则R产生的误判概率记为P(j|i,R),有: 如果已知x来自总体Gi的先验概率为qi(i=1,2, …m),则在规则R下,误判期望损失为: 贝叶斯定理 若总体G1, …Gm的先验概率为{qi},且相应的密度函数为{fi(x)},损失是{C(j/i)}时,则划分R的贝叶斯解为: 当抽取了一个未知总体的样品值x(p维向量),要判断它属于哪个总体,只要先计算出m个按先验分布加权的误判平均损失hj(x),然后比较这m个平均损失的大小,取其中最小的,则判定x来自该总体 两总体判别 设有2个总体,其先验概率分别为q1,q2,满足:qi≥0,∑qi=1,误判成本分别为C(1/2), C(2/1), h1(x)=q2f2(x)C(1/2), h2(x)=q1f1(x)C(2/1), R1={x| q2f2(x)C(1/2)q1f1(x)C(2/1)} R2={x| q2f2(x)C(1/2)q1f1(x)C(2/1)} 两总体判别 其中:z-Fisher判别函数得分,c-两个类中心连线的中点(Fisher判别准则) 当先验概率和误判损失各类都相等时,即为Fisher判别。先验概率/误判损失不对称时,相当于对原判别值做一个修正 如果f1(x)与f2(x)分别为Np(?1, ∑)和Np(?2, ∑),则 四、逐步判别 变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,回影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。 * * 目录 上页 下页 返回 结束 在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。如果在某个判别问题中,将其中最主要的指标忽略了,由此建立的判别函数其效果一定不好。但是在许多问题中,事先并不十分清楚哪些指标是主要的,这时,是否将有关的指标尽量收集加入计算才好呢?理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰了我们的视线。因此适当筛选变量的问题就成为一个很重要的事情。 凡具有筛选变量能力的判别方法统称为逐步判别法。和通常的判别分析一样,逐步判别也有许多不同的原则,从而产生各种方法(具体原理参见何晓群教材)。 * * 目录 上页 下页 返回 结束 逐步判别的原则 * * 目录 上页 下页 返回 结束 * * 目录 上页 下页 返回 结束 (ⅳ)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。 五、SPSS的Discriminant过程 Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax页中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。 SPSS的判别分析方法 为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。 判别分析数据结构 设一分组变量表示分组类别 判别分析过程 Analyze→Classify →Discriminant... ,弹出Discriminant Analysis对话框。 定义分组变量取值范围 SPSS提供6种方法进行判别函数分析:强迫变量进入法及其他5种逐步进入法 强迫进入法:已选变量全部进入模型 逐步进入法 选择满足指定条件的样本进行分析 定义分组变量取值范围 分组变量最大值 分组变量最小值 逐步进入方法选择对话框method “组间最小F比率”值最大的变量 具有最小总体Wilk‘s ?值的变量进入模型 具

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档