SAS软件应用之聚类分析PPT.pptVIP

下载本文档

35
0
约7.77千字
约 72页
2018-01-25 发布于境外
举报
版权申诉

SAS软件应用之聚类分析PPT.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CLUSTER过程第二个过程步用第一个过程步得到的结果绘制树状图，其中： DATA语句使用的是VARCLUS过程步的输出数据集，即由OUTTREE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距（行数或列数）。 ID语句给出的变量名也是用来作为树干刻度的标记，但这个变量名由样本序号构成。 FASTCLUS过程用于大样本样品聚类的FASTCLUS过程步使用的是逐步聚类法，其聚类原则是使得类间距离最小。和CLUSTER过程步相比，FASTCLUS过程步的缺点是：没有将原始数据标准化的功能；不能自动确定类别数；需要确定初始凝聚点；不能输出作树状图的聚类信息。 FASTCLUS过程因此，在使用FASTCLUS过程步前，①要用STANDARD过程步将原始数据标准化，即将原始数据化为均值为0，标准差为1的标准化数据；②要根据经验确定类别数；③要根据经验选取凝聚点，或者在确定类别数的基础上指令系统自动选取初始凝聚点。 FASTCLUS过程 FASTCLUS过程步的优点是能快速地对大样本进行样本聚类，且聚类后输出类内指标的均值，用于比较类间的差异，找出每一类的特性。 SAS系统中利用FASTCLUS过程步进行大样本聚类。 FASTCLUS过程的语法格式如下： PROC STANDARD DATA= OUT= MEAN=0 STD=1; VAR 指标变量; RUN; PROC FASTCLUS DATA= MAXC= RADIUS= MAXITER= LIST DISTANCE OUT= OUTSTAT= VARDEF= [选项]; VAR 指标变量; RUN; FASTCLUS过程各语句选项说明如下：第一个过程步用于将数据标准化，标准化的数据存在新数据集中。 OUT选择项给出含有标准化数据的新数据集名。 MEAN选择项给出标准化数据的均值，一般取MEAN=0。 STD选择项给出标准化数据的标准差，一般取STD=1。 VAR语句给出需要标准化的变量。 FASTCLUS过程第二个过程用来聚类样本，使用的数据是上面过程步得到的标准化变量。 DATA语句给出上面过程步得到的含有标准化变量的新数据集。 MAXC选择项用来指定允许的最大类别数。 RADIUS给出确定新凝聚点的准则r，即只有当一个点在以原凝聚点为中心，以r为半径的圆外时，才能被选为新的凝聚点。如果这样的点不存在，则聚类停止。 MAXITER给出递推运算的次数。 LIST表明列出每一个样品的归类结果。 DISTANCE表明输出类内样品均值间的距离。本章小节聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。聚类分析的任务有两个，第一就是寻找合理的度量事物相似性的统计量；第二是寻找合理的分类方法。在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理，又称为样本聚类分析；R型聚类分析是对指标进行分类处理，称为指标聚类分析。本章小节聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的，前者用的统计量是距离系数，后者用的统计量是相似系数。距离系数的定义有很多，如欧式距离、极端距离、绝对距离等。相似系数的定义也很多，如相关系数、列联系数等。本章小节聚类分析的方法很多，本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。本章详细介绍了各种聚类方法的分析步骤。通过实例介绍了聚类分析的常用四种SAS过程步（VARCLUS、CLUSTER、FASTCLUS和ACECLUS过程步）。在学习的过程中掌握这些SAS过程步的语法格式并会灵活运用。第19章判别分析学习目标了解判别分析的基本思想；熟悉Bayes判别分析法和Fisher判别分析法；掌握BAYES参数分析法的判别准则效能的评估；掌握判别分析的SAS过程步：DISCRIM、CANDISC和STEPDISC过程步。概述在医学研究和疾病防治工作中，经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如，需要根据就诊者的各项症状、体征及化验指标，作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断；又如，在环境监测中，根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。概述判别分析的任务是根据已掌握的一批分类明确的样品建立判别函数，使产生错判的事例最少，进而对给定的一个新样品，判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法，它和聚类分