聚类分析(快速聚类和变量聚类)_上机指导.doc

下载文档 降价啦

44
0
约4.48千字
约 15页
2017-03-24 发布于重庆
举报
版权申诉
保障服务

聚类分析(快速聚类和变量聚类)_上机指导.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析(快速聚类和变量聚类)_上机指导

实验六聚类分析 ——动态聚类和变量聚类二、动态聚类法——FASTCLUS过程动态聚类又称为逐步聚类，基本思想是，开始先粗略地分一下类（先选一批凝聚点，让样品向最近的凝聚点聚集，就得到初始分类），然后按照某种最优的原则修改不合理的分类，直到分得比较合理为止。 FASTCLUS过程的一般格式： PROC FASTCLUS MAXCLUSTER=n|RADIUS=t options; VAR variables; ID variable; FREQ variable; WEIGHT variable; BY variables; 语句说明： PROC FASTCLUS 语句用来开始FASTCLUS过程，必须规定说明项MAXCLUSTER= 或RADIUS= 中的一个。说明项和常用选项： MAXCLUSTER=n|MAXC=n :指定所允许的最大分类数，缺省为100. RADIUS=t :为选择新的“凝聚点”指定的最小距离准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时，该观测可考虑用来作为新的“凝聚点”。t的缺省值为0. DATA=SAS-data-set：给出进行聚类的观测数据集的名字。 OUT= SAS-data-set:聚类结果保存都新的数据集中，包含VAR中变量，及新变量cluster和distance（观测与所属类间的距离）。 CLUSTER=name：规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER. DRIFT：执行逐个修改法 MAXITER=n：指定重新计算类的凝聚点的最大迭代次数。当n0时，执行按批修改法。缺省为1. DISTANCE：要求输出类均值之间的距离 LIST：要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。注意事项：应用举例：例2：试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d641)进行分类。 SAS程序： proc fastclus data=d641 out=out653 maxc=4 list; var x1-x6;id group; run; maxc=4：规定最大分类个数为4类 list：要求列出分类结果。 out=out653：指定生成名为out653的输出数据集，包含VAR中的变量，新变量cluster和新变量distance（观测与所属类中心的距离）。主要输出结果：动态聚类的初始凝聚点（数据不标准化）动态聚类的分类结果（数据不标准化）第一类：北京、浙江第二类：上海第三类：河北、山西、黑龙江、山东、河南第四类：内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差（数据不标准化）以下SAS程序首先调用STANDARD过程对数据作标准化变化，然后用标准化变换后的数据进行动态聚类分析。 Proc standard data=d641 mean=0 std=1 out=sta653; Var x1-x6; /*将数据集d641中的变量x1-x6标准化，输出到数据集sta653中*/ Proc fastclus data=sta653 out=out654 maxc=4 list; Var x1-x6;id group; Run; 主要输出结果：动态聚类的初始凝聚点（数据标准化）动态聚类的分类结果（数据标准化）第一类：北京第二类：上海第三类:河北、山西、内蒙、山东、河南第四类：天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西三、变量聚类——VARCLUS过程 VARCLUS过程的一般格式： PROC VARCLUS语句及选项：数据集选项： DATA=SAS-data-set：指定要分析的数据集，数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR（矫正过的相关系数矩阵）,COV,UCOV等的数据集。 OUTSTAT=SAS-data-ste：生成一个输出数据集，包含均值、标准差、相关系数、类得分系数和类的结构。 OUTTREE=SAS-data-set：生成输出数据集，包含有聚类过程的树状结构信息，可用TREE过程画树状图。确定分类个数的选项： MAXCLUSTERS=n|MAXC=n：规定所要求的最大分类个数，缺省为变量个数。 MINCLUSTERS=n|MINC=n：规定所要求的最小分类个数，缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类 MAXEIGEN=n:规定每一类第二特征值所允许的最大值，缺省，若没有规定选项PROPORTI