第3章___判_别_分_析.pptVIP

下载本文档

0
0
约4.4千字
约 30页
2019-09-07 发布于湖北
举报
版权申诉

第3章___判_别_分_析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三章判别分析【教学目的】通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法，能够用此方法分析实际问题。【教学重点】判别分析的基本思想及几种判别方法。判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值，建立判别函数和判别准则，并使其错判率最小，对于一个未知分类的样本，将所测指标代入判别方程，从而判断它来自哪个总体。当然，这种准则在某种意义上是最优的，如错判概率最小或错判损失最小等。其前提是总体均值有显著差异，否则错分率大，判别分析无意义。判别分析与聚类分析的关系区别：判别分析是在研究对象分类已知的情况下，根据样本数据推导出一个或一组判别函数，同时指定一种判别准则，用于确定待判样品的所属类别，使错判率最小。聚类分析预先不知道分类，它要解决的问题，正是对给定的未知分类的样品进行分类，它是一种纯统计技术，只要有多指标存在，就能根据各观测的变量值近似程度排序，只是描述性的统计，而判别分析能对未知分类观测判别分类，带有预测性质。联系：两者都是研究分类问题，两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作，根据样品聚类的结果进行判别分析。距离判别法距离判别法的基本思想如果事先已有m类的先验知识，将每一类视为一个总体，计算各样品与各总体之间的距离，将各样品分别归入与其距离最近的类。两总体距离判别设有两个总体G1、G2，X为一样品，定义X到两总体的距离分别为d（X，G1），d（X，G2），判别准则为： {X∈G1 若d（X，G1） d（X，G2） {X∈G2 若d（X，G2） d（X，G2） {待判若d（X，G1）=d（X，G2）判别准则的直观表述即样品离哪个总体最近，则判该样品属于哪个总体。与上述准则等价的想法，就是算出样品到各总体间距离的差，根据差值来判断样品的归属。多总体距离判别分为协方差阵相同和协方差阵不同两种情况，它们的判别函数有差异，而判别准则无差异。一般来说，用距离最近准则判别是符合习惯的，但会发生误判，各总体发生误判的概率和阀值的选择有关。当总体靠得很近，无论用那种方法误判概率都很大，作判别分析无意义。因此，判别分析的前提是各总体均值必须有显著差异。 Fisher 判别法基本思想：Fisher 判别法是一种线性判别的方法，通过将多维数据投影到某个方向上，投影的原则是将总体与总体之间尽可能分开，然后再选择合适的判别准则，将待判的样品进行分类判别。判别函数和判别准则：假定判别函数为： Yi=C1X1+C2X2+……+GPXP （i=1，2……k）其中：K：判别类别数目； Y：判别分数或判别值； X1……XP：判别变量或自变量； C1……CP：判别系数，表示各判别变量对判别值的影响；线性判别函数的数目与类别数目K相同。对于待判样品，将样品的P个变量值代入判别函数中求出K个判别分Y值，比较结果大小，将样品分入最大判别值对应的组中去。线性判别函数可直接用于待判样品的分类。 Bayes 判别法基本思想：贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法。这种方法先假定对研究对象已有一定的认识，这种认识以先验概率来描述，然后取得一个样本，用样本来修正已有的认识，得到后验概率分布，比较这些概率的大小，将待判样品判归为来自概率最大的总体。对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。判别函数和判别准则：判别函数可为后验概率P（g /x）或错判的平均损失E（h /x）。判别准则为后验概率最大或错判的平均损失最小，可以证明两者是等价的。Bayes 判别可直接用于待判样品的分类。典则判别分析典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。对于分为K组的研究对象，建立K-1个典则判别函数而不管自变量有几个。它是一种降维的技术，因为判别函数个数少于分类组数，因此它不能用于对待判样品的分类，可以用于计算判别分及画散点图和区域图。建立判别函数的方法选择变量是判别分析中的一个重要问题，变量选择是否恰当，是判别效果优劣的关键。一般来说，各变量在判别式中的判别能力不同，有些很重要，有些不重要，如果在判别式中将其最主要的变量忽略了，相应的判别效果一定不好；如果一些判别能力差的变量保留在判别式中，不仅会增加计算量，而且会产生干扰影响判别效果。同时，由于指标之间有相