《SAS系统和数据分析判别分析》.docVIP

下载本文档

20
0
约8.84万字
约 69页
2016-12-10 发布于贵州
举报
版权申诉

《SAS系统和数据分析判别分析》.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《SAS系统和数据分析判别分析》

判别分析判别分析方法的任务是根据已掌握的一批分类明确的样品，建立一个较好的判别函数，使得用此判别函数进行判别时错判事例最少，进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析（Discriminate Analysis）是用以判别个体所属类体的一种统计方法。它产生于20世纪30年代，近年来，在许多现代自然科学的各个分支和技术部门中得到广泛的应用。判别分析方法通常要给出一个判别指标——判别函数，同时还要指定一种判别规则。下面我们介绍: 距离判别分析方法 Fisher线性函数判别方法距离判别分析如果假设每组内分布为多元正态分布，基于多元正态分布理论的参数法将导出一个线性或二次的距离判别函数。否则，将采用不基于任何分布假设的非参数方法。贝叶斯理论距离判别分析利用贝叶斯理论计算样品属于每一组的先验概率已知，且在处的组密度可以估计时，属于某组的后验概率。设有个组，且组的概率密度为，样品来自组的先验概率为，满足，那么根据贝叶斯理论，样品属于组的后验概率为： (38.1) 如果假设每组内维样品分布为元正态分布情况，则有： (38.2) 其中，和分别是第组的均值和协方差阵。此时，样品来自组的概率密度函数为： (38.3) 其中，的几何意义为到组均值的平方距离。将式(38.3)代入式(38.1)可得： (38.4) 其中： (38.5) 为从样品至第组的广义平方距离。这里： (38.6) (38.7) 一个样品判归于第组，是因为样品在这个组得到的后验概率为最大值，或者这个样品至第组的广义平方距离为最小值。这种判别哪个样品归属于哪个组的判别准则称为最大后验概率准则。如果此最大后验概率小于指定的阈值（threshold），则将样品判归于除组以外的其他组。线性判别分析为简单起见，我们只考虑两个总体的情况。设有两个协方差相同的正态总体和，它们的分布分别是和。现在对于一个新的样品，我们要判断它来自哪个总体。最直观的方法就是计算到两个总体的距离和，并按下述规则判断：如果，则；如果，则。那么关键的问题是这里的距离函数怎么选。多元统计分析中最著名的一个距离是由马哈拉诺比斯（Mahalanobis）提出的，习惯上称为马氏距离。即到母体的距离定义为： (38.8) 那么： (38.9) 若令： (38.10) 上述判别规则可写成：当时，；当时，。若、和已知，则是的线性函数，称为线性判别函数。非线性判别分析如果协方差不同，即两个正态总体和分别服从和。现在对于一个新的样品，我们要判断它来自哪个总体。我们仍然按照样品至各母体的最近距离归类。即判别准则为：如果，则；如果，则。其中： (38.11) 那么： (38.12) 这是一个二次项判别函数。这样判别准则就变成为判断式(38.12)是取正还是取负的问题了。可见，当时，我们得到了线性判别函数，因此使用线性判别函数判别；当时，我们得到了二次判别函数，因此使用二次判别函数判别。一般情况下，我们并不知道两个总体的特征，即、和、是未知的，只有从两个总体中抽取样品，假设从两个总体各抽取了和个样品；。使用线性判别函数还是二次判别函数进行判别分析取决于两个总体的方差。如果有，就利用线性判别函数进行判别分析，否则，就利用二次判别函数判别。这样检验与是否相等就极为重要了。假定：原假设备选假设则检验统计量为： (38.13) 其中，为估计合并协方差阵，为第组内的估计协方差阵。勃克斯指出近似服从自由度为的卡方分布，其中： (38.14) (38.15) 如果有，则在显著性水平( 的意义下，拒绝原假设 H0，而接受备选假设 H1；反之，如果有，则在显著性水平 ( 的意义下，接受原假设H0。在接受原假设H0的情况下，使用式(38.10)的线性判别函数进行判别分析；线性判别函数中的、和可分别由其无偏估计值代替： (38.16) 其中： (38.17) (38.18) (38.19) 在接受假设H1的情况下，使用二次判别函数进行判别分析；二次判别函数中的、和、可分别由其无偏估计值代替： (38.20) (38.21) (38.22) (38.23) 其实，可以很容易把距离判别推广到多个总体的情形。多类判别对于两类线性判别及非线性判别，都是求得一个判别函数，对于任一组样品（或待判别样品）将其代入判别函数，求得判别得分，再依判别分界点，而决定将其判属于哪一类。但是，许多实际问题所提出的可能是多类判别的问题。设有类（），每类中有，，…，组样品，每组样品有p个指标，并记。假设各组样品都是相互独立的正态随机变量，即： (38.24) 其中，是第k类的p个变量的数学期望（向量），矩阵是相