第14讲判别分析(免费阅读).pptVIP

下载本文档

10
0
约8.99千字
约 48页
2016-12-23 发布于重庆
举报
版权申诉

第14讲判别分析(免费阅读).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

西南科技大学生命科学与工程学院周海廷制作 6.1 　基本概念判别分析(Discriminatory　Analysis)的任务是根据已掌握的１批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的１个新样品，判断它来自哪个总体。根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别方法。费歇（FISHER）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。　　距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。 6.2　离散（定性）资料的判别分析１．方法的概述　　设有ｖ个观察指标，每个指标又有若干个细目（各指标的细目数可以不等）。变量之间不一定是相互独立的，为了获得初略的判别方法，权且假定独立性成立。于是，可用如下的独立性变量的最大似然判别法，实现离散（定性）资料的判别分析。　　记为母体πj中细目xi出现的概率（应用时，常用频率取代）、记为母体πj中指标向量X出现的概率则: 如果每个xi都只取０或１，根据二项、条件概率贝叶斯公式的有关知识可知：当观察到X后，判具有指标向量X的个体属于πj的概率为：在不同母体比较中，由于式(6.2)的分母是公共的，故只需比较分子。对分子采取统一的变换（即取对数，加１后扩大10倍），使计算十分简便。２．应用举例　　[例6.1]　某医院将702例阑尾炎病例分成３类：慢性（π1，简记为甲）、急性已穿孔（π2，简记为乙）、急性未穿孔（π3，简记为丙）。考察了７项指标，每个指标又分若干细目。各类阑尾炎在各指标的细目上出现的频数（％）列在表6.1的左边３列上，表6.1 702例阑尾炎病例数据表6.1 702例阑尾炎病例数据(续) 表6.1 702例阑尾炎病例数据(续) DO i=1 TO v; DO k=1 TO c(i); DO j=1 TO m; INPUT a @@; b=10*(log10(a/100)+1); y(i,k,j)=round(b,1); OUTPUT; END; END; END; FILE PRINT; DO i=1 TO v; DO k=1 TO c(i); PUT @10 x( i , k ) @25 y(i,k,1) @35 y(i,k,2) @45 y(i,k,3); END; PUT; END; 应根据具体问题修改指标数V和病型数M、各指标的细目数C(K)。如本例中，V=7、M=3、C(1)=5、C(2)=3等。若有５类，在第１个PUT语句的分号之前还应加：　　@55 y(i,k,4) @65 y(i,k,5)。１．方法的概述　　实际资料中往往含有较多的指标，其中有些指标之间彼此相关，选择其中互相独立的几个指标用于建立判别函数式，不仅函数的形式更简捷、效果也会更好；况且，有些指标可能对鉴别不同的类毫无用处，应把它们排斥在判别函数之外。所以，在建立判别函数之前，先进行逐步判别分析，即进行变量筛选是很有必要的。 SAS中的STEPDISC过程可实现逐步判别分析，在决定某变量是选入还是剔除时，采用F统计量，并可通过前进法、后退法或逐步法来实现；一旦某些变量被选入后，检验它们的鉴别能力有多大时，用WILKS∧统计量，它与多元方差分析中所作的检验是相同的。２．应用举例　　[例6.2]　为研究心肌梗塞病的危险因素，某研究者考察了２组人群（即心梗组与正常组，２组间受试对象的年龄与性别构成接近）有关的指标10多项，现取其中血脂方面的６项指标:tc(总胆固醇)、tg(甘油三酯)、hdlc(高密度脂蛋白胆固醇)、ldlc(低密度脂蛋白胆固醇)、apoa(载脂蛋白AI)、apob(载脂蛋白B)。指标的测定结果如下（每组各取了30例），试作２类判别分析。这６项血脂指标中，有些指标间可能存在较高的相关性，在建立判别函数之前最好先进行变量筛选。实现的办法是调用逐步判别分析过程─STEPDISC。 ; PROC STE