第8章SAS判别分析.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章SAS判别分析

第八章 判别分析 判别分析简介 一般判别分析 典型判别分析 逐步判别分析 一、判别分析简介 判别分析是一种应用性很强的统计方法。它通常是根据已有的数据资料,来建立一种判别方法,然后再来判断一个新的样品归属于哪一类。 例如,医院拥有以往就诊的各种病人的资料,包括他们的心率、血压、体温、化验指标等很多数据。现在有一个新的病人来医院就诊,对他也测量了相关的指标数据,要判断他患有哪一种病,这就属于一个判别归类的问题。又如,在矿产勘探中积累了丰富的地质资料,现在某地区新采到了一个岩石标本,要从它的基本特征判断该地区有无矿产,是贫矿还是富矿,则也需要进行判别分析。 二、一般判别分析 1、距离判别法 距离判别法是通过计算距离函数来进行判别,即样品与哪个总体之间的距离最近,则判断它属于哪个总体。如何衡量样品与总体间的这种抽象的距离?我们一般利用马氏距离来描述。 二、一般判别分析 2、Bayes判别法 前一节介绍距离判别法十分简便实用,但是也存在一些缺点。例如,距离判别法没有考虑到关于总体的先验概率,而且没有考虑可能出现错判而带来的损失。Bayes判别法正是为了克服这些缺陷而提出来的一种判别方法。 Bayes判别法是基于Bayes统计的思想,即假定事先对所研究的对象有一定的了解,并通过先验概率分布来进行描述,当抽取样本后,用样本来修正先验概率分布,并得到后验概率分布,然后根据后验概率分布进行各种统计推断。 Bayes判别法首先计算给定样品属于各个总体的条件概率,然后比较这些概率值的大小,将样品判归于条件概率最大的总体。 一般判别分析 DISCRIM过程 PROC DISCRIM DATA=数据集名 选项; CLASS 分类变量名; VAR 变量名列表; PRIORS 概率值; BY 分组变量名; RUN; 一般判别分析 DISCRIM过程 一般判别分析 DISCRIM过程 二、一般判别分析 3、DISCRIM过程 语句说明: (1)PROC语句用于规定开始运行DISCRIM过程并指定要分析的数据集名。选项有: TESTDATA=数据集名——指定需要进行分类的观测组成的数据集。该数据集中定量变量的名称必须和DATA=数据集中的定量变量的名称相匹配。 METHOD=选项——规定进行分类的方法。 LIST——规定对每个观测显示重新分类的结果。 TESTLIST——规定显示TESTDATA=数据集中观测的分类结果。 二、一般判别分析 3、DISCRIM过程 (2)CLASS语句用于规定分类变量,可以是数值型变量也可以是字符型变量。分类变量的不同取值则代表了不同的类别。 (3)VAR语句用于规定要分析的定量变量。若不使用此语句,则默认分析数据集中所有的数值型变量。 (4)PRIORS语句用于规定各类别的先验概率。 (5)BY语句规定了分组变量,它使得BY过程对分组内进行处理。在使用BY语句前,应对数据集按照分组变量进行排序。 三、典型判别分析 1、Fisher判别法 典型判别分析采用了与主成分分析和典型相关分析类似的降维技术,以找到能最好概括类别区分的变量的线性组合。降维时要求同一类中的区别尽可能小,而不同类间的区别尽可能大。 典型判别分析 CANDISC过程 PROC CANDISC DATA=数据集名 选项; CLASS 分类变量名; VAR 变量名列表; BY 分组变量名; RUN; 典型判别分析 CANDISC过程 典型判别分析 CANDISC过程 典型判别分析 DISCRIM过程 PROC DISCRIM DATA=典型变量数据集; CLASS 分类变量名; VAR 典型变量名; RUN; 四、逐步判别分析 1、基本原理 逐步判别分析考察了p维指标(即p个变量)对总体的区分能力是否显著,对判别分类不起作用的变量则予以删除,优化了判别的效果。 逐步判别的基本思想与我们在上一章介绍的逐步回归相似:在建立判别函数时逐个引入变量,每一步选择都一个判别能力最显著的变量进入判别函数,同时对已有的变量也进行检验,将不显著的变量剔除。直到在可选的变量中,既没有变量被选入也没有变量被删除为止。这样在最后得到的判别函数中,所有变量都是显著的。通过使用逐步判别法,提高了判别样品的能力,也增强了判别函数的稳定性。 STEPDISC过程 PROC STEPDISC DATA=数据集名 选项; CLASS 分类变量名; VAR 变量名列

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档