- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
判别分析方法 基于SPSS应用软件 一、判别分析意义 判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。 不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。 方法有 距离判别——根据个案与总体均值间的距离大小的原则,进行判别。 贝叶斯判别——根据后验概率最大的原则。 典型判别——求原始变量的线性组合,使产生的新变量之更能将类分开。 逐步判别——有逐步筛选的办法,将对判别有贡献的变量选出。 距离的判别 由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。 显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离(马氏距离)。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。 贝叶斯判别 根据后验概率最大的原则,在企业的财务状况下,利用贝叶斯公式计算其判给各类的后验概率,哪个概率越大,则判给哪类。 典型判别法(先计算新变量的线性组合) 考虑只有两个(预测)变量的判别分析问题。 假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。 这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。 于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是典型判别法。 逐步判别法(仅仅是在前面的方法中加入变量选择的功能) 有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量, 这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks’ Lambda、Rao’s V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。 第一步:打开判别分析的窗口。 第二步:定义类的代码。 第三步:将变量放入独立变量框。 第四步:选择统计量。 第五步:选择判类的一些前提条件和输出。 关于逐步判别的选项。 下面来观察输出结果 一、首先做全模型 要求: 所有本来均进入; 先验概率相等; 输出判别函数; 做交叉核实; 画分类散点地图; 保存后验概率,判类结果和判别函数得分。 标准化的典型变量的函数 典型判别函数和原始变量的相关系数。 典型判别函数的系数,判别函数的得分由此计算。 典型变量在两类的均值。 距离判别法的判别函数。在正态假定下,它与贝叶斯判别等价。 错判和正判的结果。标志处是回代核实和交叉核实的正判率。 误判和正确判别率 从这个表来看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。 该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的判别函数来判断的结果。 这里的判别结果是100%判别正确,但一般并不一定。 二、利用SPSS软件的逐步判别法的结果 判别分析要注意什么? 训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能由于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。 要注意数
文档评论(0)