SAS判别解析总结计划.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. 课程: SAS 判别分析 部门: 创新业务部 - 徐宝莲 时间: 2015/1/16 内容概要: 1 、 判别分析的简单介绍 2 、 一般判别分析—— PROC DISCRIM 3 、 典型判别分析—— PROC CANDISC 4 、 逐步判别分析—— PROC STEPDISC 1 、判别分析的简单介绍 判别分析是一种应用性很强的统计方法。 它通常是根据已有的数据资料, 来建立一种判 别方法,然后再来判断一个新的样品归属哪一类。 判别分析的 SAS 过程所处理的数据集要求具有一个分类变量和若干个数值型变量。 SAS 中进行判别分析的具体目标可以分为以下三条: 建立判别函数,以便用来判别某一新的观测值的所属类别; 寻找一组数值型变量的线性组合,使得其能够很好地反映各类别之间的差别; 筛选出某些能反映类别间差别的变量。 2 、一般判别分析—— PROC DISCRIM 2.1 距离判别法 距离判别法是通过计算距离函数来进行判别, 即样品与哪个总体之间的距离最近, 则判 .. . 断它属于哪个总体。 如何衡量样品与总体间的这种抽象的距离?我们一般利用马氏距离来描 述。 对于两总体的情形,设 和 是两个 P 维总体,样品 X 到 的距离为 ,样品 X 到 的距离为 ,则我们按照下面的准则对样本 X 进行判别归类: 1) 若 ,则判定 X 属于 ; 2) 若 ,则判定 X 属于 ; 3) 若 ,则 X 有待于进一步判定。 2.2Bayes 判别法 Bayes 判别法是基于 Bayes 统计的思想,即假定事先对所研究的对象有一定的了解, 并通过先验概率分布来进行描述, 当抽取样本后, 用样本来修正先验概率分布, 并得到后验 概率分布,然后根据后验概率分布进行各种统计推断。 Bayes 判别法首先计算给定样品属于各个总体的条件概率,然后比较这些概率值的大 小,将样品判归于条件概率最大的总体。 PROC DISCRIM DATA= 数据集名 选项 ; CLASS 变量名列表; PRIORS 概率值; BY 分组变量名; RUN; 语句说明: 1 ) PROC DISCRIM 语句用来调用 DISCRIM 过程。 DATA :此选项用于指定输入的“训练数据集”,即已知类别的若干样品所组成的数据 集,一般的数据集和特殊类型的数据集均可以 ; TESTDATA :指定用于进行判别分析的检验数据集。 .. . METHOD: 指定判别分析方法,可以设置为“ method=normal ”(参数法)或者 “ method=npar ”(非参数法)。 POOL :说明按各个总体协方差相等与否的模型进行计算。 当” POOL=YES ”时,指定 总体协方差矩阵相同,计算协方差矩阵估计值;当” POOL=NO ”时,指定总体协方差矩 阵不同,计算协方差矩阵估计值。 2) CLASS 语句是 DISCRIM 过程中所必须的一条语句,用于说明分类变量,该分类变 量的值用于决定每条观测属性的类别。 3)PRIORS 语句是用来指定各类别的先验概率。 有三种先验概率设定方式的语句格式。 格式一: priors equal ,表示设定的各类别先验概率相等。 格式二: priors proportional ,表示设定的各类别先验概率等于训练样本中各类别所 占得比例。 格式三: priors “ 1 ” =0.2 “ 2 ” =0.6 “ 3 ” =0.2; 或者priors a=0.2 b=0.3 c=0.4 d=0.1. 空格为区分符,前面的语句说明分类变量取 1,2,3 的类的先验概率是 0.2,0.6,0.2 ;后 面语句说明分类变量取 a,b,c,d 类的先验概率为 0.2,0.3,0.4,0.1. 此种方法适合自定义各个类 别的先验概率。 当使用 PRIORS 语句时, DISCRIM 过程计算样品属于某一类的后验概率,同时给出判 别函数。当“ POOL=YES ”时,判别函数是线性函数;当” POOL=NO ”时,判别函数是 二次函数。 实例演练: 某市气象站测得了半个月以内的空气质量数据, 并评定了相应的空气质量等级, 见下表: 空气中悬浮颗粒物 二氧化硫 氮氧化物 空气质量等级 0.208 0.051 0.064 2 0.196 0.092 0.057 2 0.289 0.206 0.068 3 0.299 0.187 0.082 3 .. . 0.277 0.09 0.072 2 根据上表建立判别分析准则,并判定下表三天的空气质量等级: 空气中悬浮颗粒物 二氧化硫 氮氧化物 0.254 0.184 0.071 0.243 0.054 0.032 0.185 0.102 0.057 3 典型判别分析—— PROC CA

文档评论(0)

136****9452 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档