- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逐步判别分析
一、逐步判别分析的基本思想
在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。
逐步判别法和通常的判别分析一样,也有许多不同的原则,从而产生各种方法。这里讨论的逐步判别分析方法是在多组判别分析基础上发展起来的一种方法,判别准则为贝叶斯判别函数,其基本思路类似于逐步回归分析,采用“有进有出”的算法,即按照变量是否重要,从而逐步引入变量,每引入一个“最重要”的变量进入判别式,同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要”的变量。
二、逐步判别的基础理论――对判别变量附加信息的检验
根据逐步判别分析的基本思想,进行判别分析需要解决两个关键的问题,一个是引入或剔除判别变量的依据和检验问题;另外则是判别函数的及时导出的问题。其中的理论基础又在于如何对判别变量在区别各个总体中是否提供附加信息的检验。为此这里先给出如何对判别变量在区别各个总体中是否提供附加信息进行检验的基础理论。
设有个总体,,相应抽出样品个数为每个样品观测个指标得观测数据如下,
第1个总体的样本数据为:
第2个总体的样本数据为:
……
第个总体的样本数据为:
和多组判别分析一样,假定各组的样品都是相互独立的正态随机向量,各组的协方差矩阵都一样,即
其中,为组第个样品的第个变量,为组的均值向量,为协方差矩阵。
再令全部样品的总均值向量为:
各个总体的样品的均值向量为:
于是,样品的组内离差阵为:
样品的总离差阵为:
为了对这个总体建立判别函数,需要检验:
当被接受时,说明区分这个总体是没有什么意义的,在此基础上建立的判别函数效果不好。当被否定时,说明个总体可以区分,建立的判别函数有意义。
但是为了达到区分这个总体的目的,原来选择的个指标是否可以减少而达到同样的判别效果,为此,也就要去掉一些对区分个总体不带附加信息的变量。
对于上述问题的检验,可以采用维尔克斯统计量(Wilks)来进行:
而的极限分布是服从于大样本的。
为了进一步考虑这一问题,把个变量分解为两个部分,如果通过某种步骤已经选中了个变量,我们要检验增加第个变量后对区分总体是否提供了附加信息,即对第个变量的“判别能力”进行检验。为此,将矩阵、进行分块:
于是前个变量的维尔克斯统计量(Wilks)为
当增加第个变量后,个变量的维尔克斯统计量(Wilks)为,
所以有,
即
统计量
的极限分布是。用此统计量来检验给定前个变量的条件下,增加第个变量的条件均值是否相等,即是否对区分总体提供附加信息。
三、引入和剔除变量的依据和检验统计量
在上述理论基础上,下面给出,判别分析中引入变量和剔除变量的依据和检验方法。
(1)步,并且已经引入了,现对第步添加一个新变量的“判别能力”进行检验,为此将变量分为两组,第一组是前个已经引入的变量,第二组仅有一个变量,将这个变量的组内离差阵和总离差阵仍分别记为与。
其中,
其中,
所以维尔克斯统计量
令,有
由附加信息检验准则,则引入变量的依据是,引入变量的检验统计量为
它服从于分布。
在未选入变量中,选择使达到最小值的变量,当时,则认为变量提供了附加信息,即的判别能力显著,由此将作为入选变量。
对已入选的个变量中,要考虑较早选入的变量中其重要性有没有较大变化,应及时把不能提供附加信息的变量剔除,剔除的原则同于引进变量。
(2)如果第步是剔除变量,第步剔除变量的能力等价于第步引入的判别能力,令,
则相应的剔除变量的依据是,剔除变量的检验统计量为
它服从于分布。
如果对于某个变量,使得在已经入选的变量中的具有最大值,并且满足,则认为变量不能提供附加信息了,即的判别能力不显著,由此应该将从入选变量中剔除。
四、求解判别函数中的矩阵变换
为求判别函数,逐步判别在计算上采用的是“求解求逆紧凑变换法”将变量逐步引入或剔除,每引入或剔除一个变量称为逐步判别的一步。
设初始的组内离差矩阵为(),初始的总的离差矩阵为(),从它们开始,每步施行一次变换,假如已经进行了步,引入了个变量,则第步无论是引入还是剔除变量,都要进行如下的变化:
逐步判别过程,就是不断的引入和剔除变量的过程,可以证明,前三步都只引入,而不必考虑剔除,在以后的各步中则首先考虑剔除,如果不能剔除则再考
文档评论(0)