多元统计分析讲义(第三章)new.docVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计分析讲义(第三章)new.doc

《多 元 统 计 分 析》 Multivariate Statistical Analysis 主讲:统计学院 许启发(xuqifa1975@163.com) 第三章 判别分析 【教学目的】 让学生了解判别分析的背景、基本思想; 掌握判别分析的基本原理与方法; 掌握判别分析的操作步骤和基本过程; 学会应用聚类分析解决实际问题。 【教学重点】 注意判别分析与聚类分析的关系(联系与区别); 阐述各种判别分析方法。 §1 概述 什么是判别分析 1.研究背景 科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标来表征的,即不同类型的的观测值在某种意义上有一定的差异。当得到一个新样本观测值(或个体)的关于指标的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析(discriminant analysis)是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。 判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。 2.基本思想及意义 用统计的语言来描述判别分析,就是已知有个总体(每个总体可认为是属于的指标取值的全体),它们的分布函数均为p维函数,对于任一给定的新样本观测值关于指标的观测值,我们要判断该样本观测值应属于这g 个总体中的哪一个。 在实际应用中,通常由取自各总体的关于指标的样本为该总体的代表,该样本称为训练样本。判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的,因此对当前的新样本观测值,我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样本观测值的所属类型。概括起来,下述几个方面体现了判别分析的重要意义。 第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将濒临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。 第二,避免破产的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。 第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验和手术得到确诊,但通常人们往往更希望通过便于观测(从而也可能导致误诊)的一些外部症状来诊断,以避免过大的开支和对患有不必要的损伤。 第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这时可以用这位已故作家署名作品的写作特点(用一些变量描述)为训练样本,用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。 从以上例子也可以清楚地看到,如果不是利用直接明确的分类信息来判断某样本观测值的归属问题,难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小,或误判损失最小等)的准则来判定一个新样本属于哪一个总体。根据判别准则的不同,我们主要介绍距离判别、Fisher判别和Bayes判别。 判别分析的分类及准则 1.分类 (1)按照判别组数分:两组判别和多组判别; (2)按照所用的数学模型分:线性判别和非线性判别; (3)按照处理度量的方法分:逐步判别和序贯判别。 2.准则 主要有:马氏距离最小准则,Fisher准则,平均损失最小准则,最小平方准则,最大似然准则,最大概率准则。并可由此提出判别方法:距离判别法,Fisher判别法,Bayes判别法,逐步判别法。 判别分析与聚类分析 判别分析是用以判别个体所属群体的一种统计分析方法,产生于20世纪30年代。判别分析是在已知研究对象分成若干

文档评论(0)

xinshengwencai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5311233133000002

1亿VIP精品文档

相关文档