应用多元统计分析判别分析.pptxVIP

应用多元统计分析判别分析.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用多元统计分析判别分析

1 判别分析 2 第六章 把对象归类 ——判别分析 为什么判别? 有一些昆虫的性别很难看出,只有通过解剖才能够判别; 但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。 这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。 3 4 判别分析 (discriminant analysis) 这就是本章要讲的是判别分析。 判别分析和前面的聚类分析有什么不同呢? 主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。 而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。 5 判别分析例子 例10.1 数据“企业评价.sav” :企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。 这些指标包括: 企业规模、服务、 雇员工资比例、利润增长、 市场份额、市场份额增长、 流动资金比例、资金周转速度等等。 6 Disc.sav数据 7 判别分析例子 另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。 我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。 该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。 8 判别分析的基本思路 设有G1、G2、…GK个总体 从不同的总体中抽出不同的样本 根据样本 建立判别法则 判别新的样品属于哪一个总体 当然,根据不同的方法,建立的判别法则也是不同的。 常用的判别方法有:距离判别、Fisher判别、Bayes判别 9 根据距离的判别(不用投影) 企业评价.sav数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。 因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点, 由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。 10 根据距离的判别(不用投影) 显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。 用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。 11 距离判别法 假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则 如果D(x,G1) D(x,G2),则 x∈G1 如果D(x,G2) D(x,G1),则 x∈G2 如果D(x,G1) = D(x,G2),则待判 距离判别法 这时判别准则可分以下两种情况给出: (1) 12 13 距离判别法 14 距离判别法 15 距离判别法 16 距离判别法 我们看到用距离判别所得到的准则是颇为合理的。但是从下图中可以看出,用这个判别法有时会得出错误的判别。 17 距离判别法 当两总体靠的很近时,无论用何种判别方法,错判概率都会很大,这是判别分析是没有意义的。因此只有当两个总体的均值有显著差异时(即两个总体的均值差异很大时),做判别分析才有意义。 18 距离判别法 距离判别法 19 20 Fisher判别法(先进行投影) 所谓Fisher判别法,就是一种先投影的方法。 考虑只有两个(预测)变量的判别分析问题。 假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。 这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。 21 22 23 Fisher判别法 于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。 24 Fisher判别分析的基本模型 判别分析的基本模型是判别函数: 其中:y是判别值;xi为各判别变量;bi为相应的判别系数,它表示p个判别变量对于判别函数值的影响 确定bi的原则是使两组间的区别最大,而是每个组内部的

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档