第四章判别分析概要.ppt

下载文档 降价啦

27
0
约8.19千字
约 81页
2018-03-16 发布于湖北
举报
版权申诉
保障服务

第四章判别分析概要.ppt

1、本文档共81页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四章判别分析概要

影响分类的因素先验概率误判损失cost of misclassification: x被判为属于G2，而它实际属于G1，则称发生了误判误判可能会带来经济损失当误判损失不对称时（比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时），我们通常会改变判别准则（使之偏向误判成本低的一方），宁可将G2误判给G1，也不愿相反。基本思路：误判期望损失最小化设有m个总体G1, …Gm,其概率密度函数分别为fi(x),i=1,2…m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j|i)，那么，对于判别规则R产生的误判概率记为P(j|i,R),有：如果已知x来自总体Gi的先验概率为qi(i=1,2, …m)，则在规则R下，误判期望损失为：贝叶斯定理若总体G1, …Gm的先验概率为{qi}，且相应的密度函数为{fi(x)}，损失是{C(j/i)}时，则划分R的贝叶斯解为：当抽取了一个未知总体的样品值x(p维向量），要判断它属于哪个总体，只要先计算出ｍ个按先验分布加权的误判平均损失hj(x)，然后比较这m个平均损失的大小，取其中最小的，则判定x来自该总体两总体判别设有2个总体，其先验概率分别为q1,q2，满足：qi≥0，∑qi=1，误判成本分别为C(1/2), C(2/1)， h1(x)=q2f2(x)C(1/2), h2(x)=q1f1(x)C(2/1), R1={x| q2f2(x)C(1/2)q1f1(x)C(2/1)} R2={x| q2f2(x)C(1/2)q1f1(x)C(2/1)} 两总体判别其中：z-Fisher判别函数得分，c-两个类中心连线的中点（Fisher判别准则）当先验概率和误判损失各类都相等时，即为Fisher判别。先验概率/误判损失不对称时，相当于对原判别值做一个修正如果f1(x)与f2(x)分别为Np(?1, ∑)和Np(?2, ∑)，则四、逐步判别变量的选择是判别分析中的一个重要的问题，变量选择是否恰当，是判别分析效果有列的关键。如果在某个判别问题中，将起最重要的变量忽略了，相应的判别函数的效果一定不好。而另一方面，如果判别变量个数太多，计算量必然大，回影响估计的精度。特别当引入了一些判别能力不强的变量时，还会严重地影响判别的效果。 * * 目录上页下页返回结束在多元回归中熟知，变量选择的好坏直接影响回归的效果，而在判别分析中也有类似的问题。如果在某个判别问题中，将其中最主要的指标忽略了，由此建立的判别函数其效果一定不好。但是在许多问题中，事先并不十分清楚哪些指标是主要的，这时，是否将有关的指标尽量收集加入计算才好呢？理论和实践证明，指标太多了，不仅带来大量的计算，同时许多对判别无作用的指标反而会干扰了我们的视线。因此适当筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别方法统称为逐步判别法。和通常的判别分析一样，逐步判别也有许多不同的原则，从而产生各种方法(具体原理参见何晓群教材)。 * * 目录上页下页返回结束逐步判别的原则 * * 目录上页下页返回结束 * * 目录上页下页返回结束（ⅳ）这时既不能选进新变量，又不能剔除已选进的变量，将已选中的变量建立判别函数。五、SPSS的Discriminant过程 Discriminant过程的大部分功能都可以通过对话框来指定，还有一些功能可以在Syntax页中给予补充或修改。例如，指定各类的先验概率；显示旋转方式和结构矩阵；限制提取的判别函数的数目；读取一个相关矩阵；分析后把相关矩阵写入文件；指定对参与分析的观测量进行回代分类，对没有参与分析的观测量进行预测分类等。 SPSS的判别分析方法为研究舒张期血压和血浆胆固醇对冠心病的作用，某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标，结果如下，试作判别分析，建立判别函数以便在临床中用于筛选冠心病人。判别分析数据结构设一分组变量表示分组类别判别分析过程 Analyze→Classify →Discriminant... ，弹出Discriminant Analysis对话框。定义分组变量取值范围 SPSS提供6种方法进行判别函数分析：强迫变量进入法及其他5种逐步进入法强迫进入法：已选变量全部进入模型逐步进入法选择满足指定条件的样本进行分析定义分组变量取值范围分组变量最大值分组变量最小值逐步进入方法选择对话框method “组间最小F比率”值最大的变量具有最小总体Wilk‘s ?值的变量进入模型具