(完整版)判别分析中Fisher判别法的应用.docVIP

下载本文档

111
0
约6.35千字
约 14页
2020-09-07 发布于山东
举报
版权申诉

(完整版)判别分析中Fisher判别法的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 绪论 1.1 课题背景随着社会经济不断发展，科学技术的不断进步，人们已经进入了信息时代，要在大量的信息中获得有科学价值的结果，从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一，应用于自然科学和社会各个领域，成为探索多元世界强有力的工具。判别分析是统计分析中的典型代表，判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功；决定一个学生是否录取；在医疗诊断中，根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下，建立一定的判别准则，使得利用判别准则对新的观测对象的类别进行判断时，出错的概率很小。而Fisher 判别方法是多元统计分析中判别分析方法的常用方法之一，能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上，采用国内广泛使用的统计软件 SPSS （Statistical Product and Service Solutions ）, 它也是美国 SPSS公司在 20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher 判别法的概述根据判别标准不同，可以分为距离判别、Fisher 判别、Bayes判别法等。Fisher 判别法是判别分析中的一种，其思想是投影， Fisher 判别的基本思路就是投影，针对P维空间中的某点 x=(x1 ，x2，x3，, ，xp) 寻找一个能使它降为一维数值的线性函数y(x) ： y x C j x j 然后应用这个线性函数把 P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据，再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把 P维空间中的所有点转化为一维数值之后，既能最大限度地缩小同类中各个样本点之间的差异，又能最大限度地扩大不同类别中各个样本点之间的差异，这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想，即依据组间均方差与组内均方差之比最大的原则来进行判别。 1.3 算法优缺点分析优点：（ 1）一般对于线性可分的样本，总能找到一个投影方向，使得降维后样本仍然线性可分，而且可分性更好即不同类别的样本之间的距离尽可能远，同一类别的样本尽可能集中分布。（2）Fisher 方法可直接求解权向量 * w ；（3）Fisher 的线性判别式不仅适用于确定性模式分类器的训练，而且对于随机模式也是适用的， Fisher 还可以进一步推广到多类问题中去缺点：（1）如果 * M1 M ， w 0 ，则样本线性不可分； M 1 M 2 ，未必线性可 2 分； S 不可逆，未必不可分。 w （2）对线性不可分的情况， Fisher 方法无法确定分类 2 实验原理 2.1 线性投影与 Fisher 准则函数各类在 d 维特征空间里的样本均值向量： M 1 i x k n i x k X i ， i 1,2 (2.5-2) 通过变换 w 映射到一维特征空间后，各类的平均值为： 1 mi y n k i k Y y i ，i 1,2 (2.5-3) 映射后，各类样本“类内离散度”定义为： 2 ( )2 S y m i k i y Y k i ， i 1,2 (2.5-4) 显然，我们希望在映射之后，两类的平均值之间的距离越大越好，而各类的样本类内离散度越小越好。因此，定义 Fisher准则函数： J (w) F 2 |m m | 1 2 2 2 s s 1 2 (2.5-5) 使 J 最大的解 F * w 就是最佳解向量，也就是 Fisher的线性判别式。 2.2 求解 * w 从JF (w) 的表达式可知，它并非 w 的显函数，必须进一步变换。已知： 1 mi y n k y k Y i i ， i 1,2, 依次代入(2.5-1) 和(2.5-2) ，有： 1 1 T T T mi w x w ( x ) w M k k n n x X x X i i k i k i i ，i 1,2 (2.5-6) 所以： 2 T T 2 T 2 |m1 m | || w M w M || || w (M M ) || 2 1 2 1 2 T ( )( )T w M M M M 1 2 1 2 w T w S b w (2.5-7) 其中： T S ( )( ) b M M M M 1 (2.5-8) 2 1 2 S 是原 d 维特征空间里的样本类内离散度矩阵，表示两类均值向量之间的离 b 散度大小，因此， S 越大越容易区分。 b T 将(2.5-6) mi w M i