网站大量收购独家精品文档,联系QQ:2885784924

实用SAS统计分析教程Ch17.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文档主要内容介绍了使用SAS统计分析教程如何进行判别分析,包括现实生活中需要进行归类的新样本以及与已有分类相关的判别规则此外,还提及了常用的判别分析工具,如SAS系统和聚类分析最后,强调了判别分析在数据分析中的重要性和实用性

阮敬博⼠

⾸都经济贸易⼤学研究⽣院副院⻓

⾸都经济贸易⼤学统计学院教授

©ruanjing@

CH17判别分析

•现实⽣活中,⼈们不光要对现有事物分⻔别类,有些时候还需在已知分类的基础上

对类型未确定的新样本依据特定特征进⾏了归类。即在给定现有分类的条件下,要

求把新收集的样本,依据既定的特征,归⼊现有的某⼀个类别当中,因⽽有了本章

所要介绍的判别分析。

判别分析的基本思想

•如有G1和G2两个类别,对于新加⼊的样本A,

考虑把A归⼊对应类别中去(如图17-1所示)。

由于归类的过程涉及到对新样本与现有样本特

征的判定与识别问题,才能对号⼊座,因此该

过程也可称之为判别分析(Discriminant

Analysis)。在数据挖掘分析⽅法中也可在⾼维

数据下利⽤判别的思想进⾏分类分析,并称之

为分类分析(Classification)。

判别分析的基本思想

•判别分析和第16章介绍过的聚类分析有什么不同呢?

•⼆者主要不同点在于:在聚类分析中⼀般⼈们事先并不知道或⼀定要明确应该分成⼏类,类别的样本

组成完全根据数据特征来确定;⽽在判别分析则要求⾄少有⼀个已经明确知道类别的“训练样本”,利

⽤这个样本数据的特征,就可以建⽴判别准则,并通过预测变量来为未知类别的观测值进⾏判别。

判别分析的基本思想

•⼈们通常把判别分析中已经明确知道类别的样本称之为“训练样本”,判别分析的整个过程就是通过归

纳和提炼训练样本的特征来进⾏的。如某企业对其⽣产某种产品的消费者购买意愿进⾏调查,经过调

查研究,有101个被调查到的消费者被划分为“潜在顾客”,另外有32个被调查到的消费者被划分为“⾮

潜在顾客”。研究者希望从这些被调查到的消费者特征出发,从中找出⼀个分类标准,对那些还没有

进⾏归类的消费者进⾏定位。⽽研究者所依据的这些被调查到的133个消费者数据就是⼀个“训练样

本”。⽽那些没有进⾏归类的消费者数据或新样本数据可以看作是“测试样本”或“待判样本”。判别分析

就是根据从训练样本中所归纳或总结出来的判别规则,对测试样本进⾏归类。

判别分析的步骤和过程

•判别分析的基本思路就是根据从不同总体(设有G1,G2,…,Gi个总体)中随机抽取出来

的训练样本,在分析训练样本特征的基础之上,然后建⽴⼀定的判别法则,根据新的样本

特征和判别法则去判别新样本应该来⾃于哪⼀个总体。

•在判别分析过程中,建⽴判别法则是尤为重要的步骤,也是判别分析的核⼼所在。根据不

同的⽅法,可以建⽴不同的判别法则。如果已知或假定总体服从⼀定的分布(如多元正态

分布),则可以使⽤参数判别规则;反之则可以采⽤⾮参数判别规则。

判别分析的步骤和过程

•SAS系统中可以⽤上述两种判别规则进⾏判别分析。

•参数判别的基本思路具体如下:先根据协⽅差矩阵计算新样本点到各类中⼼的距离,并且依据⼴义距

离的⼤⼩,把新样本点归⼊距离最近的⼀类;或先计算新样本点属于各类的后验概率,然后把新样本

归⼊后验概率最⼤的⼀类。

•⽽⾮参数⽅法以后验概率为依据进⾏判别,与参数判别规则不同的是其使⽤核估计或最近邻估计概率

密度,这两种估计也需要定义距离。⽽后验概率通常也可以⽤距离来表示。

•与聚类分析⼀样,判别规则中的距离同样可以选取不同定义的距离,如欧⽒距离、⻢⽒距离或相似系

数等。判别规则所依据的最简单原则就是新样本点离哪⼀个类别的距离最近,那么它就属于哪⼀类。

•除了上述主要两种判别规则和⽅法之外,SAS系统中还可以使⽤典型判别法、逐步判别法等多种⽅法

进⾏判别分析。

距离判别

•故名思意,距离判别的基本思想是:待判样本和哪个总体距离最近,就判它属于哪个总体。由于所有的类别已知,

所以可求得每个类的中⼼。这样只要定义了如何计算距离,就可得到任何给定的点到类型中⼼的距离。这种根据

距离远近判别的⽅法,原理简单,直观易懂。因此,距离判别也称为直观判别法。

•通常情况下,距离判别过程⼀般采⽤⻢⽒距离。⻢⽒距离是样本点x到类中⼼µ的⼀种相对距离。该距离由印度数

文档评论(0)

医药前沿 + 关注
实名认证
内容提供者

专业医药相关文档服务

1亿VIP精品文档

相关文档