第14讲判别分析(免费阅读).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西南科技大学生命科学与工程学院周海廷制作 6.1  基本概念 判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。 根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。 费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。 贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。    距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。 6.2 离散(定性)资料的 判别分析 1.方法的概述   设有v个观察指标,每个指标又有若干个细目(各指标的细目数可以不等)。变量之间不一定是相互独立的,为了获得初略的判别方法,权且假定独立性成立。于是,可用如下的独立性变量的最大似然判别法,实现离散(定性)资料的判别分析。   记为母体πj中细目xi出现的概率(应用时,常用频率取代)、记为母体πj中指标向量X出现的概率则: 如果每个xi都只取0或1,根据二项、条件概率贝叶斯公式的有关知识可知:当观察到X后,判具有指标向量X的个体属于πj的概率为: 在不同母体比较中,由于式(6.2)的分母是公共的,故只需比较分子。对分子采取统一的变换(即取对数,加1后扩大10倍),使计算十分简便。 2.应用举例   [例6.1] 某医院将702例阑尾炎病例分成3类:慢性(π1,简记为甲)、急性已穿孔(π2,简记为乙)、急性未穿孔(π3,简记为丙)。考察了7项指标,每个指标又分若干细目。各类阑尾炎在各指标的细目上出现的频数(%)列在表6.1的左边3列上, 表6.1 702例阑尾炎病例数据 表6.1 702例阑尾炎病例数据(续) 表6.1 702例阑尾炎病例数据(续) DO i=1 TO v; DO k=1 TO c(i); DO j=1 TO m; INPUT a @@; b=10*(log10(a/100)+1); y(i,k,j)=round(b,1); OUTPUT; END; END; END; FILE PRINT; DO i=1 TO v; DO k=1 TO c(i); PUT @10 x( i , k ) @25 y(i,k,1) @35 y(i,k,2) @45 y(i,k,3); END; PUT; END; 应根据具体问题修改指标数V和病型数M、各指标的细目数C(K)。如本例中,V=7、M=3、C(1)=5、C(2)=3等。若有5类,在第1个PUT语句的分号之前还应加:   @55 y(i,k,4) @65 y(i,k,5)。 1.方法的概述   实际资料中往往含有较多的指标,其中有些指标之间彼此相关,选择其中互相独立的几个指标用于建立判别函数式,不仅函数的形式更简捷、效果也会更好;况且,有些指标可能对鉴别不同的类毫无用处,应把它们排斥在判别函数之外。所以,在建立判别函数之前,先进行逐步判别分析,即进行变量筛选是很有必要的。 SAS中的STEPDISC过程可实现逐步判别分析,在决定某变量是选入还是剔除时,采用F统计量,并可通过前进法、后退法或逐步法来实现;一旦某些变量被选入后,检验它们的鉴别能力有多大时,用WILKS∧统计量,它与多元方差分析中所作的检验是相同的。 2.应用举例    [例6.2] 为研究心肌梗塞病的危险因素,某研究者考察了2组人群(即心梗组与正常组,2组间受试对象的年龄与性别构成接近)有关的指标10多项,现取其中血脂方面的6项指标:tc(总胆固醇)、tg(甘油三酯)、hdlc(高密度脂蛋白胆固醇)、ldlc(低密度脂蛋白胆固醇)、apoa(载脂蛋白AI)、apob(载脂蛋白B)。指标的测定结果如下(每组各取了30例),试作2类判别分析。 这6项血脂指标中,有些指标间可能存在较高的相关性,在建立判别函数之前最好先进行变量筛选。实现的办法是调用逐步判别分析过程─STEPDISC。 ; PROC STE

文档评论(0)

tiangou + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档