- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析(快速聚类和变量聚类)_上机指导
实验六 聚类分析
——动态聚类和变量聚类
二、动态聚类法——FASTCLUS过程
动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。
FASTCLUS过程的一般格式:
PROC FASTCLUS MAXCLUSTER=n|RADIUS=t options;
VAR variables;
ID variable;
FREQ variable;
WEIGHT variable;
BY variables;
语句说明:
PROC FASTCLUS 语句用来开始FASTCLUS过程,必须规定说明项MAXCLUSTER= 或RADIUS= 中的一个。
说明项和常用选项:
MAXCLUSTER=n|MAXC=n :指定所允许的最大分类数,缺省为100.
RADIUS=t :为选择新的“凝聚点”指定的最小距离准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时,该观测可考虑用来作为新的“凝聚点”。t的缺省值为0.
DATA=SAS-data-set:给出进行聚类的观测数据集的名字。
OUT= SAS-data-set:聚类结果保存都新的数据集中,包含VAR中变量,及新变量cluster和distance(观测与所属类间的距离)。
CLUSTER=name: 规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.
DRIFT:执行逐个修改法
MAXITER=n:指定重新计算类的凝聚点的最大迭代次数。当n0时,执行按批修改法。缺省为1.
DISTANCE:要求输出类均值之间的距离
LIST:要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。
注意事项:
应用举例:
例2:试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d641)进行分类。
SAS程序:
proc fastclus data=d641 out=out653 maxc=4 list;
var x1-x6;id group;
run;
maxc=4:规定最大分类个数为4类
list:要求列出分类结果。
out=out653:指定生成名为out653的输出数据集,包含VAR中的变量,新变量cluster和新变量distance(观测与所属类中心的距离)。
主要输出结果:
动态聚类的初始凝聚点(数据不标准化)
动态聚类的分类结果(数据不标准化)
第一类:北京、浙江
第二类:上海
第三类:河北、山西、黑龙江、山东、河南
第四类:内蒙、辽宁、吉林、江苏、安徽、福建、江西
动态聚类产生的各类均值和标准差(数据不标准化)
以下SAS程序首先调用STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。
Proc standard data=d641 mean=0 std=1 out=sta653;
Var x1-x6;
/*将数据集d641中的变量x1-x6标准化,输出到数据集sta653中*/
Proc fastclus data=sta653 out=out654 maxc=4 list;
Var x1-x6;id group;
Run;
主要输出结果:
动态聚类的初始凝聚点(数据标准化)
动态聚类的分类结果(数据标准化)
第一类:北京 第二类:上海
第三类:河北、山西、内蒙、山东、河南
第四类:天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西
三、变量聚类——VARCLUS过程
VARCLUS过程的一般格式:
PROC VARCLUS语句及选项:
数据集选项:
DATA=SAS-data-set:指定要分析的数据集,数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR(矫正过的相关系数矩阵),COV,UCOV等的数据集。
OUTSTAT=SAS-data-ste:生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的结构。
OUTTREE=SAS-data-set:生成输出数据集,包含有聚类过程的树状结构信息,可用TREE过程画树状图。
确定分类个数的选项:
MAXCLUSTERS=n|MAXC=n:规定所要求的最大分类个数,缺省为变量个数。
MINCLUSTERS=n|MINC=n:规定所要求的最小分类个数,缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类
MAXEIGEN=n:规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTI
您可能关注的文档
- 精选坦对应试心理关.doc
- 怎样处理好班主任和任课教师之间的关系.PDF
- 精选第二代Surface信息汇总今晚10点半发布.doc
- 精选物理教材.doc
- 精选定制专属节目单优酷AppiOS新版试用体验.doc
- 精选面试--摘选题及答案4.doc
- 精选题16综合题.doc
- 怎樣成为一名合格的汽车驾驶员驾驶论文.doc
- 糖尿病的元凶.doc
- 精馏实验2014.doc
- 2024-2030年酒瓶行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年铸造切割锯行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年锂电池项目可行性研究报告.docx
- 2024-2030年锅炉行业市场风险投资及运作模式与投融资研究报告.docx
- 2024-2030年钛合金项目可行性研究报告.docx
- 2024-2030年西瓜行业市场发展分析与发展前景及投资战略研究报告.docx
- 2024-2030年西地那非(CAS 139755-83-2)行业市场现状供需分析及投资评估规划分析研究报告.docx
- 2024-2030年越野汽车行业市场深度调研及供需格局与投资前景研究报告.docx
- 2024-2030年重碱性苯行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年铝粉行业市场深度调研及发展规划与投资前景研究报告.docx
文档评论(0)