《应用统计学》09第9章把对象分成不同的类别.ppt

下载文档 降价啦

9
0
约1.06万字
约 54页
2018-06-09 发布于广东
举报
版权申诉
保障服务

《应用统计学》09第9章把对象分成不同的类别.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * 9.2.1 判别分析有什么不同？ 9.2 判别分析 * 由R.A.Fisher于1936年提出。20世纪50年代出现了贝叶斯判别，证明了Fisher判别的合理性，所以，通常将这两种判别统称为Fisher判别分析。判别分析的因变量是分类的或顺序的变量，自变量是任意的(定性变量需要虚拟化)。用途：根据已知的样本分类来判别未知待判样本的归属。什么是判别分析？ * 自变量与因变量之间的关系符合线性假定因变量的取值是独立的，且必须事先确定自变量服从多元正态分布所有自变量在各组间方差齐，协方差矩阵也相等自变量间不存在多重共线性判别分析的适用条件 * 判别分析也是一种应用十分广泛的分类方法，有人甚至认为它可以与回归分析相媲美。它与聚类分析既有联系又有区别。聚类分析事先并不明确或者说并不一定要明确应该把对象分成几类，更不知道每一类中会包含哪些样品，必须由数据特征来最终确定。而判别分析要解决的问题则是在已知历史上用某些方法已经把研究对象分成若干类别，并取得了这些类别的一批已知样品观测数据的基础上，来判定新的观测样品应该归属到哪一个类别。在判别分析中，通常把已经明确知道类别的那批样品称为“训练样本”。判别分析就是要利用“训练样本”，根据某些准则建立判别式（或称判别函数），从而通过判别式中的预测变量来为未知类别的样品进行分类。判别分析有什么不同？ * 【例9.2】某专家用下列6个训练项目成绩来评价一个标枪运动员的标枪水平：30米跑（x1），投掷小球（x2），挺举重量（x3），抛实心球（x4），前抛铅球（x5），五级跳（x6）。表9-5是通过测试得到的53名运动员的上述6项成绩，并且专家已经根据这些成绩将他们划分为28名一级标枪运动员（group=1），25名健将级标枪运动员（group=2）。那么，当我们测试得到一名新运动员的以上各项成绩时，应该依据什么来判定他是一名一级标枪运动员还是健将级运动员呢？这就是判别分析可以帮助实现的问题。判别分析有什么不同？ ? 例9.2的标枪运动员训练项目数据 * 例9.2中给出的已知类别的53名运动员的样本数据就是一个“训练样本”，根据这些运动员的6项测试成绩（也就是6个变量x1,x2,x3,x4,x5,x6的取值）和他们各自的已知类别（变量group的取值），建立一个合理的判别标准，然后利用这一标准对未知类别的新的运动员进行分类。判别分析的内容很丰富，方法也很多。常用的主要包括了距离判别法、Fisher判别法和逐步判别法等。虽然各种方法从不同角度提出问题，建立不同的判别准则，但其实质与聚类分析相同，都是利用距离远近来把对象分类，并且后两种方法都以其前一种方法为基础。判别分析有什么不同？ 9.2.2 距离判别法 9.2 判别分析 * 所谓建立判别标准，实际上就是要以“训练样本”中的6个变量作为预测变量，结合类别变量group，建立一个判别式。每一位运动员的6项测试成绩就是六维空间中的一个点，原数据总共有53个点，并且已经知道这些点分成了两类。因此，最简单的想法就是，计算出每个类别的中心位置，对于一个新的未知类别的点（运动员），再计算出它到不同类别中心的距离，离哪个类别的中心最近，理应属于哪一类。这就是距离判别法的基本思想，也是任何其它判别方法的基础。关于距离的多种定义与聚类分析中所介绍的完全一样，人们可以选择不同的度量方法，其中马氏距离是判别分析中比较常用的。而确定好了距离的定义之后，用来判定未知类别的点到不同类别中心的距离远近的表达式就是我们最终需要的判别式，也称为判别函数。距离判别法 9.2.3 Fisher判别法 9.2 判别分析 * 对于原始数据中所有样品构成的空间中的点集，当同一类别的点组成的子集之间分得越开时，类别之间的界限也就越明显，要判别一个新的点离哪个子集最近也就越容易。当变量只有1个或2个时，我们可以把样本点绘制在直线坐标轴或坐标平面上，从而比较直观的对各个类别加以辨认。在实际问题中，用于描述对象特征的变量往往很多，多个变量的观测值在高维空间中构成的点集很难直接找出区分不同类别之间的界限。这样我们很快就会联想到多元分析中一个非常重要的思想，就是降维。 Fisher判别法试图找到少数几个新的坐标方向，使得原观测值构成的高维空间中的点在这些方向构成的新的低维空间上的投影能够尽可能清晰的把原来不同类别的点分开，而同一类别的点尽可能的紧密。 Fisher判别法 * 在例9.2中，样品在任何一个方向上的投影实质上就是原先6个变量的一种线性组合，也就是一个判别函数。与主成分的选择一样，Fisher判别法从判别效果最明显的那个投影选起，结合实际要求，确定可以给出满意的判别结果的投影个数。用降维的方法进行判别分析，难免会损失