《统计学─从数据到结论》第十二章 判别分析.pdf

《统计学─从数据到结论》第十二章 判别分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学 ─从数据到结论 第十二章 判别分析 12.1 判别分析 (discriminant analysis) •某些昆虫的性别只有通过解剖才能够判别 •但雄性和雌性昆虫在若干体表度量上有些 综合的差异。人们就根据已知雌雄的昆虫 体表度量体表度量 ((这些用作度量的变量亦称为预这些用作度量的变量亦称为预 测变量)得到一个标准,并以此标准来判 别其他未知性别的昆虫。 •这样虽非100%准确的判别至少大部分是对 的,而且用不着杀生。此即判别分析 判别分析(discriminant analysis) • 判别分析和聚类分析有何不同? • 在聚类分析中,人们一般事先并不知 道应该分成几类及哪几类,全根据数 据确定。 • 在判别分析中,至少有一个已经明确 知道类别的“训练样本”,并利用该 样本来建立判别准则,并通过预测变 量来为未知类别的观测值进行判别了。 判别分析例子 • 数据disc.txt:企图用一套打分体系来描 绘企业的状况。该体系对每个企业的 一些指标(变量)进行评分。 • 指标有:企业规模(is )、服务(se) 、雇 员工资比例(sa)、利润增长(prr)、市场 份额(ms) 、市场份额增长(msr) 、流动 资金比例(cp)、资金周转速度(cs)等. • 另外,有一些企业已经被某杂志划分 为上升企业、稳定企业和下降企业。 判别分析例子 • 希望根据这些企业的上述变量的打分 及其已知的类别 ( 三个类别之一: group-1代表上升,group-2代表稳定, groupgroup-33代表下降代表下降))找出找出一个分类标准个分类标准,, 以对尚未被分类的企业进行分类。 • 该数据有90个企业(90个观测值), 其中30个属于上升型,30个属于稳定 型,30个属于下降型。这个数据就是 一个 “训练样本”。 Disc.sav数据 1. 根据距离判别的思想 • Disc.txt数据有8个用来建立判别标准(或判 别函数) 的(预测)变量,另一个(group)是类别 • 每一个企业的打分在这8个变量所构成的8 维空间中是一个点。这个数据在8维空间有 9090个点个点, • 由于已知所有点的类别,可以求得每个类 型的中心。这样只要定义了距离,就可以 得到任何给定的点(企业)到这三个中心 的三个距离。 1. 根据距离判别的思想 • 最简单的办法就是:某点离哪个中心 距离最近,就属于哪一类。 • 一个常用距离是Mahalanobis距离。 • 用来用来比较到各个中较到各个中心距离的数学函距离的数学函 数称为判别函数(discriminant function). • 这种根据远近判别的思想,原理简 单,直观易懂。为判别分析的基础 2. Fisher判别法(先进行投影) • Fisher判别法就是一种先投影的方法。 • 考虑只有两个(预测)变量的判别问题。 • 假定只有两类。数据中的每个观测值 是二维空间的一个点。见图。 •• 这里只有两种已知类型的训练样本这里只有两种已知类型的训练样本。 一类有38个点(用“o”表示),另一类有44 个点(用“* ”表示) 。按原来变量(横坐 标和纵坐标) ,很难将这两种点分开。 6 4 2 0

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档