- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
课程: SAS 判别分析
部门: 创新业务部 - 徐宝莲
时间: 2015/1/16
内容概要:
1 、 判别分析的简单介绍
2 、 一般判别分析—— PROC DISCRIM
3 、 典型判别分析—— PROC CANDISC
4 、 逐步判别分析—— PROC STEPDISC
1 、判别分析的简单介绍
判别分析是一种应用性很强的统计方法。 它通常是根据已有的数据资料, 来建立一种判
别方法,然后再来判断一个新的样品归属哪一类。
判别分析的 SAS 过程所处理的数据集要求具有一个分类变量和若干个数值型变量。 SAS
中进行判别分析的具体目标可以分为以下三条:
建立判别函数,以便用来判别某一新的观测值的所属类别;
寻找一组数值型变量的线性组合,使得其能够很好地反映各类别之间的差别;
筛选出某些能反映类别间差别的变量。
2 、一般判别分析—— PROC DISCRIM
2.1 距离判别法
距离判别法是通过计算距离函数来进行判别, 即样品与哪个总体之间的距离最近, 则判
..
.
断它属于哪个总体。 如何衡量样品与总体间的这种抽象的距离?我们一般利用马氏距离来描
述。
对于两总体的情形,设
和
是两个 P 维总体,样品 X 到 的距离为
,样品 X
到
的距离为
,则我们按照下面的准则对样本
X 进行判别归类:
1)
若
,则判定 X 属于
;
2)
若
,则判定 X 属于
;
3)
若
,则 X 有待于进一步判定。
2.2Bayes 判别法
Bayes 判别法是基于 Bayes 统计的思想,即假定事先对所研究的对象有一定的了解,
并通过先验概率分布来进行描述, 当抽取样本后, 用样本来修正先验概率分布, 并得到后验
概率分布,然后根据后验概率分布进行各种统计推断。
Bayes 判别法首先计算给定样品属于各个总体的条件概率,然后比较这些概率值的大
小,将样品判归于条件概率最大的总体。
PROC DISCRIM DATA= 数据集名 选项 ;
CLASS 变量名列表;
PRIORS 概率值;
BY 分组变量名;
RUN;
语句说明: 1 ) PROC DISCRIM 语句用来调用 DISCRIM 过程。
DATA :此选项用于指定输入的“训练数据集”,即已知类别的若干样品所组成的数据
集,一般的数据集和特殊类型的数据集均可以 ;
TESTDATA :指定用于进行判别分析的检验数据集。
..
.
METHOD: 指定判别分析方法,可以设置为“ method=normal ”(参数法)或者
“ method=npar ”(非参数法)。
POOL :说明按各个总体协方差相等与否的模型进行计算。 当” POOL=YES ”时,指定
总体协方差矩阵相同,计算协方差矩阵估计值;当” POOL=NO ”时,指定总体协方差矩
阵不同,计算协方差矩阵估计值。
2) CLASS 语句是 DISCRIM 过程中所必须的一条语句,用于说明分类变量,该分类变
量的值用于决定每条观测属性的类别。
3)PRIORS 语句是用来指定各类别的先验概率。 有三种先验概率设定方式的语句格式。
格式一: priors equal ,表示设定的各类别先验概率相等。
格式二: priors proportional ,表示设定的各类别先验概率等于训练样本中各类别所
占得比例。
格式三: priors “ 1 ” =0.2 “ 2 ” =0.6 “ 3 ” =0.2; 或者priors a=0.2 b=0.3 c=0.4
d=0.1. 空格为区分符,前面的语句说明分类变量取 1,2,3 的类的先验概率是 0.2,0.6,0.2 ;后
面语句说明分类变量取 a,b,c,d 类的先验概率为 0.2,0.3,0.4,0.1. 此种方法适合自定义各个类
别的先验概率。
当使用 PRIORS 语句时, DISCRIM 过程计算样品属于某一类的后验概率,同时给出判
别函数。当“ POOL=YES ”时,判别函数是线性函数;当” POOL=NO ”时,判别函数是
二次函数。
实例演练:
某市气象站测得了半个月以内的空气质量数据,
并评定了相应的空气质量等级,
见下表:
空气中悬浮颗粒物
二氧化硫
氮氧化物
空气质量等级
0.208
0.051
0.064
2
0.196
0.092
0.057
2
0.289
0.206
0.068
3
0.299
0.187
0.082
3
..
.
0.277 0.09 0.072 2
根据上表建立判别分析准则,并判定下表三天的空气质量等级:
空气中悬浮颗粒物
二氧化硫
氮氧化物
0.254
0.184
0.071
0.243
0.054
0.032
0.185
0.102
0.057
3 典型判别分析—— PROC CA
原创力文档


文档评论(0)