- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二十章 聚类分析SAS程序设计
一、聚类基本思想
什么是聚类分析
聚类分析(cluster analysis):是一种将样木数据按一定科学方法分为若干 类的统计方法。聚类使得在同一类的事物具有高度的同质性(homogeneity),不 同类事物具有高度的异质性(heterogeneity) o聚类分析是为达到“物以类聚” 目的分类。
聚类分析是研究事物的分类,事先对事物个体没有分类信息,完全根据数据 的内在规律按相近原则划分新的类别。
对一个指标分类相对容易,当有多个指标,要进行分类就不是很容易了,对 于事物按多指标同时考虑进行分类需要进行多元分类,即聚类分析。
聚类分析是依赖一批样本,不知道它们的分类,甚至连分成儿类也不知道, 希望用某种方法把观测样木进行合理的分类,使得同一类的观测比较接近,不同 类的观测相差较多。聚类分析依赖于对观测样本间的接近程度(距离)或相似 程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚 类是相将近或相似的个体归为一类,聚类的实质就是相似性衡量。
类就是相似元素的集合。
聚类分析所要研究的是
、如何衡量事物之间的相似性…相似性度量。
、如何将相似事物归为一类…聚类方法。
、分类后如何描述这些类。如何根据专业知识对所分的真实的类,自然客观 的而非主观加工的类,进行经济意义或社会意义的解释。
2、相似度量
聚类分析就是要找出具有相近程度的样本聚为一类;相似性度量的种类有多种, 主要
衡量这个“相近程度”的有距离、相似系数、相关系数、夹角余弦等。 距离的四个条件
l?d(P,Q) = d(Q,P)
d(P,Q)0^Q^P
d(P,0 = O,若 Q = P
4?d(P,Q)Wd(Q,R) + d(P,R)
相似性度量的结果是得到一个相似测度矩阵。若样木容量为n, n个样木的 相似测度矩阵为n^n的对称矩阵。
样本间距离用欧式距离Euclid),马式距离(Mathalanobis),相关系数,夹角余弦 等。但SAS聚类分析只用欧氏距离为相似度量,如果耍用其它的距离度量,耍 用data步和IML过程。
类与类间的距离:SAS软件设计了最短距离法、最长距离法等10多个。
3、确定类的个数。快速聚类法要求是先确定类的个数。系统聚类法不给出类 的个数。
(1) 用树形图确定
(2) 类间的距离结合专业知识确定
(3) 利用散点图确定(只有二三维变量时用,多维时用典型相关降维)
(4) 统计量法:
立方聚类准则CCC, CCC为在均匀的原假设下立方聚类标准CCC统计量和R2,, 仅用于座标数据,不适用于最近距离聚类法,CCC统计量是一种考察聚类效果的 统计量,其值越大说明上一次聚类效果越好。
伪F. Pseudo F为伪F统计量,如果分为k个类合理,则类内离差平方和(分 母)应该较小,类间平方和(分子)相对较大。所以应该取伪F统计量较大而类 数较小的聚类水平。
伪t2, , Pseudo 1**2为伪统计量,其值越大聚类效果越差,不应合并。仅用 于座标数据,不适用于最近距离聚类法,
RSQ是R2统计量反映类内离差平方和的大小,R2统计量大说明类内离差 平方和小。聚类效果好。仅用于座标数据,不适用于最近距离聚类法,
SPRSQ是半偏R?,说明了本次合并信息损失程度,半偏R?越大说明信息损 失程度越大。为合并类引起的类内离差平方和的增量,半偏相关越大,说明这两 个类越不应该合并.
ERSQ是在均匀零假设下的 的近似期望值,
Norm RMS Dist是正规化的的两类元素间距离的均方根,
Tie指示距离最小的候选类对是否有多对。
4、SAS聚类计算方法
SAS/STAT中提供了系统聚类法(CLUSTER)、快速聚类法(FASTCLUS)、变量聚类 法(VARCLUS)、非参数聚类法(MODECLUS)四种聚类过程。
系统聚类法CLUSTER过程。对样本观测数据或样本间距离矩阵逐步合并进行聚 类,有11种方法。
快速聚类法FASTCLUS过程。对样本数据用K-MEANS法进行动态聚类,也是迭代 方法,快速聚类适用于大样本。
变量聚类VARCLUS过程。对变量进行聚类。
聚类结果画图过程TREE,将聚类结果画成树形结构图。
5、聚类分析应用步骤
1、 选择聚类变量,收集数据,对量纲有影响的数据标准化。
2、 选择本似性度量方法(欧氏距离,马氏距离,相关系数等)
3、 选择聚类方法
(1) 系统聚类法CLUSTER (类间测度有最小距离法等),
(2) 动态聚类法FASRCLUS,
(3) 变量聚类法VARCLUS
4、 结合专业知识,由树形图和统计量,确定分类个数
5、 对聚类结果的进行专业解释。
6、 调用proc freq过程对各类进行描述统计
SAS系统聚类法
SAS系统聚类法
(-)系统聚类
文档评论(0)